Machine Learning y Estadística: Conexiones y Aplicaciones


«`html





Machine Learning y Estadística: Conexiones y Aplicaciones

Introducción

En la era de los datos, el Machine Learning (ML) y la Estadística se han convertido en pilares fundamentales para el análisis y la toma de decisiones. Aunque a menudo se perciben como disciplinas separadas, comparten raíces profundas y conceptos interconectados. Este artículo explora las conexiones entre ambas, desde fundamentos teóricos hasta aplicaciones prácticas, demostrando cómo la estadística proporciona el marco matemático para muchos algoritmos de ML.

Si deseas profundizar en los fundamentos matemáticos detrás de estos temas, te recomendamos nuestro artículo sobre Introducción a la Aritmética.

1. Fundamentos Estadísticos en Machine Learning

El ML se basa en conceptos estadísticos como distribuciones de probabilidad, estimación de parámetros y pruebas de hipótesis. Por ejemplo, el algoritmo de Regresión Lineal puede interpretarse como un modelo de estimación de mínimos cuadrados en estadística.

Ejemplo: Regresión Lineal como Estimación Estadística

Dado un conjunto de datos $(x_i, y_i)$, el modelo de regresión lineal busca minimizar el error cuadrático:

$$ \min_{\beta_0, \beta_1} \sum_{i=1}^n (y_i – (\beta_0 + \beta_1 x_i))^2 $$

Esta es equivalente a la estimación de máxima verosimilitud bajo el supuesto de errores normalmente distribuidos.

2. Teorema de Bayes y Clasificación Naïve Bayes

El Teorema de Bayes es fundamental en algoritmos de clasificación como Naïve Bayes. Este teorema relaciona las probabilidades condicionales e inversas:

Teorema de Bayes

Para dos eventos $A$ y $B$ con $P(B) > 0$:

$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$

Demostración: Por definición de probabilidad condicional, $P(A|B) = \frac{P(A \cap B)}{P(B)}$ y $P(B|A) = \frac{P(A \cap B)}{P(A)}$. Despejando $P(A \cap B)$ e igualando, se obtiene el resultado.

En ML, Naïve Bayes aplica este teorema asumiendo independencia condicional entre características.

3. Máxima Verosimilitud y Aprendizaje Supervisado

La estimación por máxima verosimilitud (MLE) es clave para entrenar modelos. Por ejemplo, en regresión logística, se maximiza la función de verosimilitud:

$$ L(\theta) = \prod_{i=1}^n P(y_i|x_i; \theta) $$

Ejercicio 1: MLE para Distribución Normal

Dada una muestra $x_1, …, x_n$ de una distribución $N(\mu, \sigma^2)$, encuentra los estimadores MLE para $\mu$ y $\sigma^2$.

Solución:

  1. Escribe la función de verosimilitud: $$ L(\mu, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} $$
  2. Calcula el log-verosimilitud: $$ \ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) – \frac{n}{2} \log(\sigma^2) – \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i – \mu)^2 $$
  3. Deriva respecto a $\mu$ e iguala a cero: $$ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i – \mu) = 0 \Rightarrow \hat{\mu} = \bar{x} $$
  4. Deriva respecto a $\sigma^2$ para obtener $\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$.

4. Teorema del Límite Central y Aprendizaje Automático

Este teorema justifica la normalidad asintótica de muchos estimadores en ML:

Teorema del Límite Central

Sea $X_1, …, X_n$ una muestra de variables i.i.d. con media $\mu$ y varianza $\sigma^2$. Entonces:

$$ \sqrt{n}(\bar{X}_n – \mu) \xrightarrow{d} N(0, \sigma^2) $$

Demostración (bosquejo): Usando funciones características, se muestra que la función característica de $\sqrt{n}(\bar{X}_n – \mu)$ converge a la de una normal estándar.

5. Aplicaciones Prácticas

Las técnicas estadísticas son esenciales en:

  • Medicina: Diagnóstico de enfermedades mediante clasificación.
  • Finanzas: Modelado de riesgos con regresión.
  • Marketing: Segmentación de clientes usando clustering.

Ejercicio 2: Predicción de Precios con Regresión

Dados datos de tamaño de casas (en m²) y precios (en $), ajusta un modelo lineal y predice el precio para 120m².

Datos: (100, 200000), (150, 300000), (200, 400000)

Solución:

  1. Calcula $\hat{\beta}_1 = \frac{\sum (x_i – \bar{x})(y_i – \bar{y})}{\sum (x_i – \bar{x})^2} = 2000$
  2. Calcula $\hat{\beta}_0 = \bar{y} – \hat{\beta}_1 \bar{x} = 0$
  3. Modelo: $\hat{y} = 2000x$. Para 120m²: $\hat{y} = 240000$.

Conclusión

El Machine Learning y la Estadística están profundamente conectados. Desde los fundamentos probabilísticos hasta los teoremas asintóticos, la estadística proporciona el marco teórico que hace posible el ML moderno. Dominar estos conceptos es esencial para desarrollar modelos robustos y entender sus limitaciones.

Para más contenido relacionado, visita nuestro artículo sobre Probabilidad Básica.

Ejercicios Adicionales

Ejercicio 3: Clasificación con Naïve Bayes

Dada la siguiente tabla de entrenamiento, clasifica $X = (Sunny, Cool)$ usando Naïve Bayes.

Outlook Temperature Play
Sunny Hot No
Rainy Mild Yes
Sunny Cool Yes

Solución: Calcula $P(Yes|X) \propto P(Sunny|Yes)P(Cool|Yes)P(Yes) = \frac{1}{2} \times \frac{1}{2} \times \frac{2}{3} = \frac{1}{6}$ y similar para $No$. Clasifica como $Yes$.

Ejercicio 4: Varianza de un Estimador

Demuestra que la varianza de la media muestral $\bar{X}$ es $\frac{\sigma^2}{n}$.

Solución: $Var(\bar{X}) = Var\left(\frac{1}{n} \sum X_i\right) = \frac{1}{n^2} \sum Var(X_i) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}$.

Ejercicio 5: Teorema de Bayes Aplicado

En una enfermedad rara (prevalencia 1%), una prueba tiene 99% de sensibilidad y 95% de especificidad. Calcula $P(Enfermo|Positivo)$.

Solución: Aplica Bayes: $P(E|P) = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.05 \times 0.99} \approx 16.67\%$.



«`

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *