Introducción
La estadística bayesiana es un enfoque poderoso para el análisis de datos que permite incorporar conocimiento previo en la inferencia estadística. A diferencia de la estadística frecuentista, que se basa únicamente en los datos observados, el enfoque bayesiano utiliza distribuciones de probabilidad para representar incertidumbre sobre parámetros desconocidos. Este marco teórico es especialmente útil en problemas donde los datos son escasos o cuando se necesita actualizar creencias de manera iterativa.
En este artículo exploraremos los fundamentos de la estadística bayesiana, teoremas clave, ejemplos prácticos y aplicaciones en el mundo real. Si deseas repasar conceptos básicos de probabilidad antes de continuar, te recomendamos nuestro artículo sobre Introducción a la Probabilidad.
Teorema de Bayes
Teorema de Bayes
Para dos eventos $A$ y $B$ con $P(B) > 0$, la probabilidad de $A$ dado $B$ es:
$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$
Donde:
- $P(A|B)$ es la probabilidad posterior
- $P(B|A)$ es la verosimilitud
- $P(A)$ es la probabilidad previa
- $P(B)$ es la evidencia
Demostración:
Por definición de probabilidad condicional:
$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$
$$P(B|A) = \frac{P(A \cap B)}{P(A)}$$
Despejando $P(A \cap B)$ de la segunda ecuación y sustituyendo en la primera obtenemos el teorema.
Distribuciones conjugadas
En estadística bayesiana, las distribuciones conjugadas son familias de distribuciones previas que, cuando se combinan con una verosimilitud particular, producen distribuciones posteriores de la misma familia.
Ejemplo 1: Binomial-Beta
Supongamos que tenemos una moneda que queremos probar para ver si es justa. Nuestra previa es que la probabilidad de cara $\theta$ sigue una distribución Beta(2,2). Lanzamos la moneda 10 veces y obtenemos 7 caras.
La posterior es:
$$P(\theta|data) \propto \theta^{7+2-1}(1-\theta)^{3+2-1} = Beta(9,5)$$
Estimación de parámetros
El enfoque bayesiano para estimación de parámetros proporciona no solo estimaciones puntuales, sino toda una distribución que representa nuestra incertidumbre sobre el parámetro.
Ejercicio 1: Estimación de media con varianza conocida
Supongamos que tenemos datos $x_1,…,x_n \sim N(\mu, \sigma^2)$ con $\sigma^2$ conocido. Si usamos una previa $N(\mu_0, \tau_0^2)$ para $\mu$, encontrar la distribución posterior.
Solución:
La posterior es normal con:
$$\mu_n = \frac{\frac{n\bar{x}}{\sigma^2} + \frac{\mu_0}{\tau_0^2}}{\frac{n}{\sigma^2} + \frac{1}{\tau_0^2}}$$
$$\tau_n^2 = \left(\frac{n}{\sigma^2} + \frac{1}{\tau_0^2}\right)^{-1}$$
Teorema de Bayes para variables continuas
Teorema de Bayes para variables continuas
Para parámetro $\theta$ y datos $x$:
$$p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)} = \frac{p(x|\theta)p(\theta)}{\int p(x|\theta)p(\theta)d\theta}$$
Demostración:
Se sigue directamente de la definición de densidad condicional y la ley de probabilidad total para variables continuas.
Selección de previas
La elección de la distribución previa es fundamental en el análisis bayesiano. Existen varios enfoques:
- Previas informativas
- Previas no informativas
- Previas conjugadas
- Previas de referencia
Ejercicio 2: Previa Jeffreys para distribución Poisson
Encontrar la previa de Jeffreys para el parámetro $\lambda$ de una distribución Poisson.
Solución:
La previa de Jeffreys es proporcional a la raíz cuadrada del determinante de la información de Fisher:
$$p(\lambda) \propto \sqrt{I(\lambda)} = \sqrt{E\left[-\frac{\partial^2}{\partial\lambda^2}\log p(x|\lambda)\right]} = \frac{1}{\sqrt{\lambda}}$$
Teorema de marginalización
Teorema de marginalización
Para parámetros $\theta$ y $\phi$, y datos $x$:
$$p(\theta|x) = \int p(\theta,\phi|x)d\phi$$
Demostración:
Se sigue directamente de la definición de densidad marginal y la regla del producto para distribuciones conjuntas.
Aplicaciones prácticas
La estadística bayesiana tiene numerosas aplicaciones en campos como:
- Medicina: Análisis de ensayos clínicos
- Finanzas: Modelado de riesgos
- Machine Learning: Redes bayesianas
- Procesamiento de señales: Filtrado de Kalman
Ejemplo 2: Filtrado de spam
Los filtros de spam usan el clasificador Naive Bayes para calcular la probabilidad de que un correo sea spam dado sus palabras. Para cada palabra $w_i$, calculamos:
$$P(spam|w_1,…,w_n) \propto P(spam)\prod_{i=1}^n P(w_i|spam)$$
Ejercicios adicionales
Ejercicio 3: Prueba de hipótesis bayesiana
Tenemos dos hipótesis: $H_0: \theta = 0.5$ vs $H_1: \theta \sim Beta(2,2)$. Observamos 7 éxitos en 10 ensayos. Calcular el factor de Bayes.
Solución:
El factor de Bayes es:
$$B = \frac{P(data|H_0)}{P(data|H_1)} = \frac{0.5^{10}}{\int_0^1 \theta^7(1-\theta)^3 \frac{\theta(1-\theta)}{B(2,2)}d\theta} \approx 0.84$$
Ejercicio 4: Modelo normal-gamma
Para datos normales con media y varianza desconocidas, si la previa conjunta es normal-gamma, encontrar la posterior.
Solución:
La posterior mantiene la forma normal-gamma con parámetros actualizados. Para más detalles, consulta nuestro artículo sobre Modelos Lineales Bayesianos.
Ejercicio 5: Predicción bayesiana
Con la posterior del Ejercicio 1, predecir una nueva observación $x_{n+1}$.
Solución:
La distribución predictiva posterior es:
$$p(x_{n+1}|x) = \int N(x_{n+1}|\mu,\sigma^2)N(\mu|\mu_n,\tau_n^2)d\mu = N(\mu_n, \sigma^2 + \tau_n^2)$$
Conclusión
La estadística bayesiana proporciona un marco coherente para la inferencia estadística que permite incorporar conocimiento previo y actualizar creencias a medida que llegan nuevos datos. Hemos visto:
- El teorema de Bayes como fundamento teórico
- Distribuciones conjugadas para inferencia analítica
- Métodos para selección de previas
- Aplicaciones prácticas en diversos campos
A medida que aumenta la potencia computacional, los métodos bayesianos se vuelven cada vez más accesibles y populares en la ciencia de datos moderna.
«`