Introducción
En la era de los datos, el Machine Learning (ML) y la Estadística se han convertido en pilares fundamentales para el análisis y la toma de decisiones. Aunque a menudo se perciben como disciplinas separadas, comparten raíces profundas y conceptos interconectados. Este artículo explora las conexiones entre ambas, desde fundamentos teóricos hasta aplicaciones prácticas, demostrando cómo la estadística proporciona el marco matemático para muchos algoritmos de ML.
Si deseas profundizar en los fundamentos matemáticos detrás de estos temas, te recomendamos nuestro artículo sobre Introducción a la Aritmética.
1. Fundamentos Estadísticos en Machine Learning
El ML se basa en conceptos estadísticos como distribuciones de probabilidad, estimación de parámetros y pruebas de hipótesis. Por ejemplo, el algoritmo de Regresión Lineal puede interpretarse como un modelo de estimación de mínimos cuadrados en estadística.
Ejemplo: Regresión Lineal como Estimación Estadística
Dado un conjunto de datos $(x_i, y_i)$, el modelo de regresión lineal busca minimizar el error cuadrático:
$$ \min_{\beta_0, \beta_1} \sum_{i=1}^n (y_i – (\beta_0 + \beta_1 x_i))^2 $$
Esta es equivalente a la estimación de máxima verosimilitud bajo el supuesto de errores normalmente distribuidos.
2. Teorema de Bayes y Clasificación Naïve Bayes
El Teorema de Bayes es fundamental en algoritmos de clasificación como Naïve Bayes. Este teorema relaciona las probabilidades condicionales e inversas:
Teorema de Bayes
Para dos eventos $A$ y $B$ con $P(B) > 0$:
$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$
Demostración: Por definición de probabilidad condicional, $P(A|B) = \frac{P(A \cap B)}{P(B)}$ y $P(B|A) = \frac{P(A \cap B)}{P(A)}$. Despejando $P(A \cap B)$ e igualando, se obtiene el resultado.
En ML, Naïve Bayes aplica este teorema asumiendo independencia condicional entre características.
3. Máxima Verosimilitud y Aprendizaje Supervisado
La estimación por máxima verosimilitud (MLE) es clave para entrenar modelos. Por ejemplo, en regresión logística, se maximiza la función de verosimilitud:
$$ L(\theta) = \prod_{i=1}^n P(y_i|x_i; \theta) $$
Ejercicio 1: MLE para Distribución Normal
Dada una muestra $x_1, …, x_n$ de una distribución $N(\mu, \sigma^2)$, encuentra los estimadores MLE para $\mu$ y $\sigma^2$.
Solución:
- Escribe la función de verosimilitud: $$ L(\mu, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} $$
- Calcula el log-verosimilitud: $$ \ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) – \frac{n}{2} \log(\sigma^2) – \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i – \mu)^2 $$
- Deriva respecto a $\mu$ e iguala a cero: $$ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i – \mu) = 0 \Rightarrow \hat{\mu} = \bar{x} $$
- Deriva respecto a $\sigma^2$ para obtener $\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$.
4. Teorema del Límite Central y Aprendizaje Automático
Este teorema justifica la normalidad asintótica de muchos estimadores en ML:
Teorema del Límite Central
Sea $X_1, …, X_n$ una muestra de variables i.i.d. con media $\mu$ y varianza $\sigma^2$. Entonces:
$$ \sqrt{n}(\bar{X}_n – \mu) \xrightarrow{d} N(0, \sigma^2) $$
Demostración (bosquejo): Usando funciones características, se muestra que la función característica de $\sqrt{n}(\bar{X}_n – \mu)$ converge a la de una normal estándar.
5. Aplicaciones Prácticas
Las técnicas estadísticas son esenciales en:
- Medicina: Diagnóstico de enfermedades mediante clasificación.
- Finanzas: Modelado de riesgos con regresión.
- Marketing: Segmentación de clientes usando clustering.
Ejercicio 2: Predicción de Precios con Regresión
Dados datos de tamaño de casas (en m²) y precios (en $), ajusta un modelo lineal y predice el precio para 120m².
Datos: (100, 200000), (150, 300000), (200, 400000)
Solución:
- Calcula $\hat{\beta}_1 = \frac{\sum (x_i – \bar{x})(y_i – \bar{y})}{\sum (x_i – \bar{x})^2} = 2000$
- Calcula $\hat{\beta}_0 = \bar{y} – \hat{\beta}_1 \bar{x} = 0$
- Modelo: $\hat{y} = 2000x$. Para 120m²: $\hat{y} = 240000$.
Conclusión
El Machine Learning y la Estadística están profundamente conectados. Desde los fundamentos probabilísticos hasta los teoremas asintóticos, la estadística proporciona el marco teórico que hace posible el ML moderno. Dominar estos conceptos es esencial para desarrollar modelos robustos y entender sus limitaciones.
Para más contenido relacionado, visita nuestro artículo sobre Probabilidad Básica.
Ejercicios Adicionales
Ejercicio 3: Clasificación con Naïve Bayes
Dada la siguiente tabla de entrenamiento, clasifica $X = (Sunny, Cool)$ usando Naïve Bayes.
Outlook | Temperature | Play |
---|---|---|
Sunny | Hot | No |
Rainy | Mild | Yes |
Sunny | Cool | Yes |
Solución: Calcula $P(Yes|X) \propto P(Sunny|Yes)P(Cool|Yes)P(Yes) = \frac{1}{2} \times \frac{1}{2} \times \frac{2}{3} = \frac{1}{6}$ y similar para $No$. Clasifica como $Yes$.
Ejercicio 4: Varianza de un Estimador
Demuestra que la varianza de la media muestral $\bar{X}$ es $\frac{\sigma^2}{n}$.
Solución: $Var(\bar{X}) = Var\left(\frac{1}{n} \sum X_i\right) = \frac{1}{n^2} \sum Var(X_i) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}$.
Ejercicio 5: Teorema de Bayes Aplicado
En una enfermedad rara (prevalencia 1%), una prueba tiene 99% de sensibilidad y 95% de especificidad. Calcula $P(Enfermo|Positivo)$.
Solución: Aplica Bayes: $P(E|P) = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.05 \times 0.99} \approx 16.67\%$.
«`