Ciencia de Datos: Fundamentos Estadísticos

«`html

Ciencia de Datos: Fundamentos Estadísticos

Introducción

En la era digital, los datos son el nuevo petróleo. La ciencia de datos combina estadística, programación y conocimiento del dominio para extraer información valiosa. En este artículo, exploraremos los fundamentos estadísticos esenciales para cualquier científico de datos, desde medidas de tendencia central hasta teoremas clave que sustentan el análisis predictivo. Si quieres profundizar en conceptos aritméticos básicos, puedes revisar nuestro artículo sobre introducción a la aritmética.

Medidas de Tendencia Central

Las medidas de tendencia central nos ayudan a resumir conjuntos de datos. Las principales son:

Media: $\mu = \frac{1}{n}\sum_{i=1}^n x_i$
Mediana: Valor central en un conjunto ordenado
Moda: Valor más frecuente

Ejemplo 1: Calculando medidas de tendencia central

Dado el conjunto de datos: [12, 15, 11, 12, 18]

Media: $(12 + 15 + 11 + 12 + 18)/5 = 13.6$

Mediana: Ordenamos [11, 12, 12, 15, 18] → 12

Moda: 12 (aparece dos veces)

Medidas de Dispersión

Complementan a las medidas de tendencia central mostrando cómo se distribuyen los datos:

Varianza: $\sigma^2 = \frac{1}{n}\sum_{i=1}^n (x_i – \mu)^2$
Desviación estándar: $\sigma = \sqrt{\sigma^2}$
Rango intercuartílico: Diferencia entre Q3 y Q1

Teoremas Fundamentales

Teorema 1: Ley de los Grandes Números

Sea $X_1, X_2, …, X_n$ una secuencia de variables aleatorias i.i.d. con $E[X_i] = \mu$. Entonces:

$$\lim_{n \to \infty} \frac{1}{n}\sum_{i=1}^n X_i = \mu \text{ casi seguramente}$$

Demostración: Usando la desigualdad de Chebyshev, para cualquier $\epsilon > 0$:

$$P\left(\left|\frac{1}{n}\sum X_i – \mu\right| \geq \epsilon\right) \leq \frac{\sigma^2}{n\epsilon^2} \to 0$$

Teorema 2: Teorema Central del Límite

Sea $X_1, X_2, …, X_n$ variables aleatorias i.i.d. con $E[X_i] = \mu$ y $Var(X_i) = \sigma^2$. Entonces:

$$\frac{\sum X_i – n\mu}{\sigma\sqrt{n}} \xrightarrow{d} N(0,1)$$

Ejercicios Resueltos

Ejercicio 1: Cálculo de probabilidad

Si $X \sim N(50, 10^2)$, calcula $P(40 < X < 60)$.

Solución:

1. Estandarizamos: $Z = \frac{X-50}{10}$

2. $P(40 < X < 60) = P(-1 < Z < 1)$

3. Usando tablas: $\Phi(1) – \Phi(-1) = 0.8413 – 0.1587 = 0.6826$

Ejercicio 2: Intervalo de confianza

Para una muestra de n=100 con $\bar{x}=80$ y s=15, construye un IC del 95% para μ.

Solución:

1. Valor crítico: $z_{0.025} = 1.96$

2. Margen de error: $1.96 \times \frac{15}{\sqrt{100}} = 2.94$

3. IC: $80 \pm 2.94 = (77.06, 82.94)$

Aplicaciones Prácticas

Los fundamentos estadísticos tienen aplicaciones en:

Machine Learning: Evaluación de modelos mediante métricas estadísticas
Negocios: Pronósticos de ventas y análisis de riesgo
Medicina: Ensayos clínicos y estudios epidemiológicos

Para más aplicaciones en análisis de datos, visita nuestro artículo sobre análisis exploratorio de datos.

Conclusión

Los fundamentos estadísticos son la columna vertebral de la ciencia de datos. Hemos cubierto medidas descriptivas, teoremas clave como la Ley de los Grandes Números y el Teorema Central del Límite, y ejercicios prácticos. Dominar estos conceptos permite construir modelos robustos y tomar decisiones basadas en datos.

«`