Introducción
En el mundo actual, donde los datos son el nuevo petróleo, los modelos de clasificación se han convertido en herramientas esenciales para extraer conocimiento valioso. Desde predecir si un correo es spam hasta diagnosticar enfermedades, estos algoritmos permiten tomar decisiones basadas en patrones ocultos en los datos. En este artículo, exploraremos los fundamentos teóricos, demostraremos teoremas clave y resolveremos ejercicios prácticos para dominar este fascinante tema. Si deseas profundizar en conceptos básicos, puedes revisar nuestro artículo sobre Introducción a la Aritmética.
Conceptos Básicos
Un modelo de clasificación es una función $f: X \rightarrow Y$ que asigna una etiqueta $y \in Y$ a un conjunto de características $x \in X$. Los problemas pueden ser binarios ($|Y|=2$) o multiclase ($|Y|>2$).
Ejemplo 1: Clasificación Binaria
Supongamos que queremos predecir si un estudiante aprobará ($y=1$) o no ($y=0$) basado en horas de estudio ($x_1$) y horas de sueño ($x_2$). Nuestro conjunto de datos podría verse como:
| Horas Estudio | Horas Sueño | Aprobó |
|---|---|---|
| 5 | 8 | 1 |
| 2 | 6 | 0 |
Teorema de Bayes y Clasificador Naïve Bayes
Teorema de Bayes
Para dos eventos $A$ y $B$ con $P(B) > 0$:
$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$
Demostración: Por definición de probabilidad condicional, $P(A|B) = \frac{P(A \cap B)}{P(B)}$ y $P(B|A) = \frac{P(A \cap B)}{P(A)}$. Despejando $P(A \cap B)$ en ambas e igualando se obtiene el resultado.
El clasificador Naïve Bayes aplica este teorema asumiendo independencia condicional entre características:
$$P(y|x_1,…,x_n) \propto P(y)\prod_{i=1}^n P(x_i|y)$$
Árboles de Decisión
Los árboles de decisión dividen recursivamente el espacio de características. La selección de atributos se basa en medidas como la ganancia de información:
$$IG(D_p, f) = I(D_p) – \sum_{j=1}^m \frac{N_j}{N_p}I(D_j)$$
donde $I$ puede ser la entropía $I(D) = -\sum_{i=1}^c p(i|D)\log_2 p(i|D)$.
Ejemplo 2: Construcción de Árbol
Para el dataset del Ejemplo 1, calculamos la ganancia de información para cada atributo y seleccionamos el que maximice IG.
Máquinas de Vectores de Soporte (SVM)
Teorema del Hiperplano Óptimo
Dado un conjunto linealmente separable, existe un único hiperplano que maximiza el margen $M = \frac{2}{||w||}$.
Demostración: El problema se formula como $\min \frac{1}{2}||w||^2$ sujeto a $y_i(w^Tx_i + b) \geq 1$. Usando multiplicadores de Lagrange, se obtiene la solución óptima.
Para datos no lineales, usamos kernels como el RBF:
$$K(x_i, x_j) = \exp(-\gamma ||x_i – x_j||^2)$$
Ejercicios Resueltos
Ejercicio 1: Cálculo de Probabilidades en Naïve Bayes
Dado el siguiente dataset, calcula $P(y=1|x_1=3, x_2=4)$:
| x₁ | x₂ | y |
|---|---|---|
| 2 | 3 | 0 |
| 3 | 5 | 1 |
Solución: Calculamos las probabilidades a priori y condicionales, luego aplicamos Bayes.
Ejercicio 2: Ganancia de Información
Calcula la ganancia de información para el atributo «Horas Estudio» en el Ejemplo 1.
Solución: Calculamos entropía inicial y condicional, luego restamos.
Aplicaciones Prácticas
- Diagnóstico médico: Clasificar imágenes de rayos X como normales o anormales.
- Marketing: Predecir qué clientes responderán a una campaña.
- Seguridad: Detección de transacciones fraudulentas.
Para aplicaciones más avanzadas, consulta nuestro artículo sobre Aprendizaje Profundo.
Conclusión
Hemos explorado los fundamentos de los modelos de clasificación, desde los teóricos como el Teorema de Bayes hasta los prácticos como árboles de decisión y SVM. Estos algoritmos forman la base del aprendizaje supervisado y tienen innumerables aplicaciones en el mundo real. Dominar estos conceptos es esencial para cualquier profesional de ciencia de datos.
Teorema Adicional: Límite de Error en Clasificación
Teorema del Error de Bayes
El clasificador de Bayes $h^*$ tiene el menor error posible $R^*$:
$$R(h) \geq R^* = \mathbb{E}_x[\min(P(y=1|x), P(y=0|x))]$$
Demostración: Cualquier otro clasificador $h$ tendrá mayor probabilidad de error en los puntos donde difiera de $h^*$.
Ejercicios Adicionales
Ejercicio 3: Implementar SVM Lineal
Dados los puntos $(1,1)$ con $y=1$ y $(2,2)$ con $y=-1$, encuentra el hiperplano óptimo.
Solución: Resuelve el problema de optimización cuadrática correspondiente.
Ejercicio 4: Kernel Trick
Muestra cómo un kernel polinomial de grado 2 puede separar XOR.
Solución: Aplica la transformación $\phi(x) = (x_1, x_2, x_1x_2, x_1^2, x_2^2)$.
«`
