Introducción
El análisis de clústeres es una técnica fundamental en el aprendizaje no supervisado que permite agrupar datos en conjuntos homogéneos llamados clústeres. Su aplicación abarca desde la segmentación de clientes hasta la clasificación de especies biológicas. En este artículo, exploraremos las técnicas más utilizadas, demostraremos teoremas clave y resolveremos ejercicios prácticos para dominar esta poderosa herramienta.
Si deseas repasar conceptos básicos antes de continuar, te recomendamos leer nuestra Introducción a la Aritmética.
Técnicas de Agrupamiento
1. K-Means
El algoritmo K-Means divide los datos en $k$ grupos minimizando la varianza intra-clúster. La función objetivo es:
$$ J = \sum_{i=1}^k \sum_{x \in C_i} \|x – \mu_i\|^2 $$
donde $\mu_i$ es el centroide del clúster $C_i$.
2. Agrupamiento Jerárquico
Este método construye una jerarquía de clústeres mediante enfoques aglomerativos (bottom-up) o divisivos (top-down). La distancia entre clústeres puede calcularse con:
$$ d(C_i, C_j) = \min_{x \in C_i, y \in C_j} \|x – y\| $$
3. DBSCAN
DBSCAN (Density-Based Spatial Clustering) agrupa puntos basándose en densidad local. Define:
- Punto núcleo: Tiene al menos $minPts$ en un radio $\epsilon$
- Punto frontera: Está en el radio de un núcleo pero no es núcleo
Teoremas Fundamentales
Teorema 1: Convergencia de K-Means
El algoritmo K-Means converge a un mínimo local en un número finito de iteraciones.
Demostración:
En cada iteración, la función objetivo $J$ decrece o permanece igual. Como hay un número finito de posibles asignaciones de puntos a $k$ clústeres, el algoritmo debe terminar.
Teorema 2: Inexistencia de Agrupamiento Óptimo Universal
No existe un algoritmo de agrupamiento que sea óptimo para todos los conjuntos de datos posibles.
Demostración:
Por contradicción: supongamos que existe tal algoritmo $A$. Consideremos dos conjuntos de datos $D_1$ y $D_2$ con estructuras contradictorias. $A$ no puede agrupar ambos óptimamente simultáneamente.
Teorema 3: Condición de DBSCAN
Para $\epsilon > 0$ y $minPts \geq 2$, DBSCAN particiona los datos de manera única.
Demostración:
La conectividad por densidad define una relación de equivalencia que particiona el espacio en componentes conexas maximales.
Ejercicios Resueltos
Ejercicio 1: K-Means Básico
Agrupa los puntos $\{(1,1), (1,2), (10,10), (10,11)\}$ en 2 clústeres usando K-Means.
Solución:
- Inicializar centroides en (1,1) y (10,10)
- Asignar puntos: Clúster 1 = {(1,1), (1,2)}, Clúster 2 = {(10,10), (10,11)}
- Recalcular centroides: $\mu_1 = (1,1.5)$, $\mu_2 = (10,10.5)$
- No hay cambios en asignación. Terminar.
Ejercicio 2: Dendrograma
Construye un dendrograma aglomerativo para $\{A(1), B(2), C(12)\}$ usando enlace simple.
Solución:
- Pares más cercanos: A-B (distancia 1)
- Fusionar A y B en clúster AB
- Distancia AB-C: min(d(A,C), d(B,C)) = min(11,10) = 10
- Alturas: AB a 1, ABC a 10
Ejercicio 3: Silhouette Score
Calcula el coeficiente de silueta para el punto (1,1) en el Ejercicio 1.
Solución:
$a$ = distancia a (1,2) = 1
$b$ = distancia mínima a otro clúster = distancia a (10,10) ≈ 12.73
$s = \frac{b-a}{\max(a,b)} \approx \frac{11.73}{12.73} \approx 0.92$
Ejercicio 4: DBSCAN
Identifica núcleos y ruido para $\{(1,1), (1,1.1), (10,10)\}$ con $\epsilon=1$, $minPts=2$.
Solución:
Núcleos: (1,1) y (1,1.1) (mutuamente alcanzables)
Ruido: (10,10) (no tiene vecinos en $\epsilon$)
Ejercicio 5: Elbow Method
Dados los siguientes valores de $J$ para k=1 a 5: [100, 30, 15, 12, 10], ¿cuál es el k óptimo?
Solución:
La mayor mejora ocurre de k=2 a k=3 (de 30 a 15). El codo está en k=3.
Aplicaciones Prácticas
- Marketing: Segmentación de clientes para campañas personalizadas
- Biología: Clasificación de especies basada en características
- Imágenes médicas: Detección de tejidos anormales
- Redes sociales: Identificación de comunidades
- Comercio electrónico: Sistemas de recomendación
Para profundizar en aplicaciones matemáticas, visita nuestro artículo sobre Aplicaciones Matemáticas.
Conclusión
El análisis de clústeres ofrece poderosas técnicas para descubrir patrones ocultos en datos no etiquetados. Hemos explorado algoritmos fundamentales como K-Means, agrupamiento jerárquico y DBSCAN, demostrado teoremas clave y resuelto ejercicios prácticos. Estas herramientas son esenciales en la era del big data, permitiendo tomar decisiones basadas en la estructura intrínseca de los datos.
Recuerda que la elección del método y parámetros depende del problema específico, y validar los resultados es crucial para obtener agrupaciones significativas.
«`