Introducción
La estadística multivariante es una rama fascinante de las matemáticas que nos permite analizar conjuntos de datos con múltiples variables simultáneamente. A diferencia de los métodos univariados o bivariados, esta disciplina nos brinda herramientas poderosas para entender relaciones complejas entre variables en campos tan diversos como la medicina, la economía y la inteligencia artificial. En este artículo exploraremos sus conceptos fundamentales, teoremas clave y aplicaciones prácticas, acompañados de ejemplos y ejercicios resueltos.
Conceptos Básicos
La estadística multivariante trabaja con vectores aleatorios. Un vector aleatorio $ \mathbf{X} = (X_1, X_2, …, X_p)^T $ contiene $ p $ variables aleatorias. Su media es el vector de medias:
$$ \boldsymbol{\mu} = E[\mathbf{X}] = (E[X_1], E[X_2], …, E[X_p])^T $$
La matriz de covarianza $ \boldsymbol{\Sigma} $ captura las relaciones lineales entre las variables:
$$ \boldsymbol{\Sigma} = Cov(\mathbf{X}) = E[(\mathbf{X} – \boldsymbol{\mu})(\mathbf{X} – \boldsymbol{\mu})^T] $$
Ejemplo 1: Vector de Medias
Supongamos que tenemos datos de estatura (cm) y peso (kg) para una muestra de estudiantes:
$$ \mathbf{X} = \begin{pmatrix} 170 \\ 65 \end{pmatrix}, \begin{pmatrix} 175 \\ 70 \end{pmatrix}, \begin{pmatrix} 180 \\ 75 \end{pmatrix} $$
El vector de medias sería:
$$ \boldsymbol{\mu} = \begin{pmatrix} \frac{170+175+180}{3} \\ \frac{65+70+75}{3} \end{pmatrix} = \begin{pmatrix} 175 \\ 70 \end{pmatrix} $$
Análisis de Componentes Principales (PCA)
PCA es una técnica para reducir la dimensionalidad transformando las variables originales en un nuevo conjunto de variables no correlacionadas llamadas componentes principales.
Teorema 1: Descomposición Espectral
Para cualquier matriz simétrica $ \boldsymbol{\Sigma} $ de tamaño $ p \times p $, existe una matriz ortogonal $ \mathbf{P} $ tal que:
$$ \boldsymbol{\Sigma} = \mathbf{P} \boldsymbol{\Lambda} \mathbf{P}^T $$
donde $ \boldsymbol{\Lambda} $ es una matriz diagonal con los autovalores de $ \boldsymbol{\Sigma} $.
Demostración:
Por el teorema espectral, toda matriz simétrica es diagonalizable mediante una base ortonormal de autovectores. Sea $ \mathbf{P} $ la matriz cuyas columnas son los autovectores normalizados de $ \boldsymbol{\Sigma} $, entonces $ \mathbf{P}^T \mathbf{P} = \mathbf{I} $ y se cumple la descomposición.
Ejemplo 2: PCA en 2D
Para los datos del Ejemplo 1 con matriz de covarianza:
$$ \boldsymbol{\Sigma} = \begin{pmatrix} 25 & 20 \\ 20 & 25 \end{pmatrix} $$
Los autovalores son $ \lambda_1 = 45 $ y $ \lambda_2 = 5 $ con autovectores $ \mathbf{v}_1 = \frac{1}{\sqrt{2}}(1,1)^T $ y $ \mathbf{v}_2 = \frac{1}{\sqrt{2}}(1,-1)^T $. La primera componente principal es la dirección de máxima varianza.
Análisis Discriminante
Esta técnica clasifica observaciones en grupos predefinidos maximizando la separación entre grupos respecto a la variabilidad dentro de los grupos.
Teorema 2: Criterio de Fisher
Para dos grupos con medias $ \boldsymbol{\mu}_1, \boldsymbol{\mu}_2 $ y matriz de covarianza común $ \boldsymbol{\Sigma} $, la dirección óptima para separar los grupos es:
$$ \mathbf{w} = \boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_2 – \boldsymbol{\mu}_1) $$
Demostración:
Maximizamos el ratio entre la varianza entre grupos y la varianza dentro de grupos:
$$ J(\mathbf{w}) = \frac{(\mathbf{w}^T(\boldsymbol{\mu}_2 – \boldsymbol{\mu}_1))^2}{\mathbf{w}^T \boldsymbol{\Sigma} \mathbf{w}} $$
Derivando respecto a $ \mathbf{w} $ e igualando a cero obtenemos la solución.
Ejercicios Resueltos
Ejercicio 1: Cálculo de Matriz de Covarianza
Dados los vectores $ \mathbf{x}_1 = (1,2)^T $, $ \mathbf{x}_2 = (3,4)^T $, $ \mathbf{x}_3 = (5,6)^T $, calcule la matriz de covarianza.
Solución:
1. Calculamos el vector de medias: $ \boldsymbol{\mu} = (3,4)^T $
2. Centramos los datos: $ \mathbf{x}_1′ = (-2,-2)^T $, $ \mathbf{x}_2′ = (0,0)^T $, $ \mathbf{x}_3′ = (2,2)^T $
3. La matriz de covarianza es:
$$ \boldsymbol{\Sigma} = \frac{1}{3} \sum_{i=1}^3 \mathbf{x}_i’ \mathbf{x}_i’^T = \begin{pmatrix} \frac{8}{3} & \frac{8}{3} \\ \frac{8}{3} & \frac{8}{3} \end{pmatrix} $$
Ejercicio 2: Distancia de Mahalanobis
Calcule la distancia de Mahalanobis entre $ \mathbf{x} = (1,1)^T $ y $ \mathbf{y} = (3,3)^T $ con matriz de covarianza $ \boldsymbol{\Sigma} = \begin{pmatrix} 1 & 0.5 \\ 0.5 & 1 \end{pmatrix} $.
Solución:
1. Diferencia: $ \mathbf{d} = \mathbf{y} – \mathbf{x} = (2,2)^T $
2. Inversa de $ \boldsymbol{\Sigma} $: $ \boldsymbol{\Sigma}^{-1} = \frac{1}{0.75} \begin{pmatrix} 1 & -0.5 \\ -0.5 & 1 \end{pmatrix} $
3. Distancia: $ D_M = \sqrt{\mathbf{d}^T \boldsymbol{\Sigma}^{-1} \mathbf{d}} = \sqrt{\frac{4}{3}} \approx 1.1547 $
Aplicaciones Prácticas
La estadística multivariante tiene aplicaciones en:
- Medicina: Diagnóstico de enfermedades mediante múltiples biomarcadores.
- Marketing: Segmentación de clientes basada en múltiples variables de comportamiento.
- Genómica: Análisis de expresión génica con miles de variables.
- Imágenes médicas: Procesamiento de imágenes MRI/CT multivariante.
Para profundizar en las aplicaciones médicas, visite nuestro artículo sobre Estadística en Medicina.
Modelos de Regresión Multivariante
Extienden la regresión lineal al caso con múltiples variables respuesta:
$$ \mathbf{Y} = \mathbf{X} \mathbf{B} + \mathbf{E} $$
donde $ \mathbf{Y} $ es $ n \times q $, $ \mathbf{X} $ es $ n \times p $, $ \mathbf{B} $ es $ p \times q $ y $ \mathbf{E} $ es la matriz de errores.
Teorema 3: Estimador MCO Multivariante
El estimador de mínimos cuadrados ordinarios para $ \mathbf{B} $ es:
$$ \hat{\mathbf{B}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} $$
Demostración:
Minimizamos la traza de $ \mathbf{E}^T \mathbf{E} $:
$$ tr(\mathbf{E}^T \mathbf{E}) = tr[(\mathbf{Y} – \mathbf{X} \mathbf{B})^T (\mathbf{Y} – \mathbf{X} \mathbf{B})] $$
Derivando respecto a $ \mathbf{B} $ e igualando a cero obtenemos la solución.
Para más detalles sobre regresión, consulte nuestro artículo sobre Regresión Lineal.
Conclusión
La estadística multivariante proporciona un potente marco teórico y metodológico para analizar datos complejos con múltiples variables interdependientes. Desde el PCA para reducción de dimensionalidad hasta los modelos de regresión multivariante, estas técnicas son esenciales en la era del big data. Los teoremas fundamentales, como los presentados aquí, sustentan las aplicaciones prácticas en diversos campos científicos y tecnológicos. Dominar estos conceptos permite extraer información valiosa de conjuntos de datos multidimensionales, apoyando la toma de decisiones basada en evidencia.
«`