Introducción
En la era digital, los datos son el nuevo petróleo. La ciencia de datos combina estadística, programación y conocimiento del dominio para extraer información valiosa. En este artículo, exploraremos los fundamentos estadísticos esenciales para cualquier científico de datos, desde medidas de tendencia central hasta teoremas clave que sustentan el análisis predictivo. Si quieres profundizar en conceptos aritméticos básicos, puedes revisar nuestro artículo sobre introducción a la aritmética.
Medidas de Tendencia Central
Las medidas de tendencia central nos ayudan a resumir conjuntos de datos. Las principales son:
- Media: $\mu = \frac{1}{n}\sum_{i=1}^n x_i$
- Mediana: Valor central en un conjunto ordenado
- Moda: Valor más frecuente
Ejemplo 1: Calculando medidas de tendencia central
Dado el conjunto de datos: [12, 15, 11, 12, 18]
Media: $(12 + 15 + 11 + 12 + 18)/5 = 13.6$
Mediana: Ordenamos [11, 12, 12, 15, 18] → 12
Moda: 12 (aparece dos veces)
Medidas de Dispersión
Complementan a las medidas de tendencia central mostrando cómo se distribuyen los datos:
- Varianza: $\sigma^2 = \frac{1}{n}\sum_{i=1}^n (x_i – \mu)^2$
- Desviación estándar: $\sigma = \sqrt{\sigma^2}$
- Rango intercuartílico: Diferencia entre Q3 y Q1
Teoremas Fundamentales
Teorema 1: Ley de los Grandes Números
Sea $X_1, X_2, …, X_n$ una secuencia de variables aleatorias i.i.d. con $E[X_i] = \mu$. Entonces:
$$\lim_{n \to \infty} \frac{1}{n}\sum_{i=1}^n X_i = \mu \text{ casi seguramente}$$
Demostración: Usando la desigualdad de Chebyshev, para cualquier $\epsilon > 0$:
$$P\left(\left|\frac{1}{n}\sum X_i – \mu\right| \geq \epsilon\right) \leq \frac{\sigma^2}{n\epsilon^2} \to 0$$
Teorema 2: Teorema Central del Límite
Sea $X_1, X_2, …, X_n$ variables aleatorias i.i.d. con $E[X_i] = \mu$ y $Var(X_i) = \sigma^2$. Entonces:
$$\frac{\sum X_i – n\mu}{\sigma\sqrt{n}} \xrightarrow{d} N(0,1)$$
Ejercicios Resueltos
Ejercicio 1: Cálculo de probabilidad
Si $X \sim N(50, 10^2)$, calcula $P(40 < X < 60)$.
Solución:
1. Estandarizamos: $Z = \frac{X-50}{10}$
2. $P(40 < X < 60) = P(-1 < Z < 1)$
3. Usando tablas: $\Phi(1) – \Phi(-1) = 0.8413 – 0.1587 = 0.6826$
Ejercicio 2: Intervalo de confianza
Para una muestra de n=100 con $\bar{x}=80$ y s=15, construye un IC del 95% para μ.
Solución:
1. Valor crítico: $z_{0.025} = 1.96$
2. Margen de error: $1.96 \times \frac{15}{\sqrt{100}} = 2.94$
3. IC: $80 \pm 2.94 = (77.06, 82.94)$
Aplicaciones Prácticas
Los fundamentos estadísticos tienen aplicaciones en:
- Machine Learning: Evaluación de modelos mediante métricas estadísticas
- Negocios: Pronósticos de ventas y análisis de riesgo
- Medicina: Ensayos clínicos y estudios epidemiológicos
Para más aplicaciones en análisis de datos, visita nuestro artículo sobre análisis exploratorio de datos.
Conclusión
Los fundamentos estadísticos son la columna vertebral de la ciencia de datos. Hemos cubierto medidas descriptivas, teoremas clave como la Ley de los Grandes Números y el Teorema Central del Límite, y ejercicios prácticos. Dominar estos conceptos permite construir modelos robustos y tomar decisiones basadas en datos.
«`
