La cantidad de algoritmos que se utilizan en minería de datos en enorme y corremos el riesgo de perdernos en un mar de siglas que inicialmente no aportan más que confusión. Una buena forma de aproximarnos será organizarlos en función del tipo de aprendizaje que utilizan: supervisado y no supervisado.
El aprendizaje supervisado supone que partimos de un conjunto de datos etiquetado previamente, es decir, conocemos el valor del atributo objetivo para el conjunto de datos que disponemos. El aprendizaje no supervisado parte de datos no etiquetados previamente.
Un ejemplo de aprendizaje supervisado sería la construcción de un modelo de reingresos en hospitalización partiendo de un conjunto de datos previo de los que conocemos si el paciente reingresó o no (el atributo que nos indique la condición de reingreso en el conjunto de datos original sería la etiqueta). Un ejemplo de aprendizaje no supervisado sería la de segmentar los pacientes que han sido atendidos en urgencias en grupos homogéneos pero sin un conocimiento previo de los grupos que queremos obtener; lo haríamos a partir de estructuras no evidentes subyacentes en los datos.
Aprendizaje supervisado
Los algoritmos de aprendizaje supervisado basan su aprendizaje en un juego de datos de entrenamiento previamente etiquetados. Por etiquetado entendemos que para cada ocurrencia del juego de datos de entrenamiento conocemos el valor de su atributo objetivo. Esto le permitirá al algoritmo poder “aprender” una función capaz de predecir el atributo objetivo para un juego de datos nuevo. Las dos grandes familias de algoritmos supervisados son:
- Los algoritmos de regresión cuando el resultado a predecir es un atributo numérico.
- Los algoritmos de clasificación cuando el resultado a predecir es un atributo categórico.
Ejemplos de este tipo de algoritmos son los modelos de regresión lineal y logística, los arboles de decisión, las redes neuronales y K-NN (k -nearest neighbor).
Aprendizaje no supervisado
Los métodos no supervisados (unsupervised methods) son algoritmos que basan su proceso de entrenamiento en un juego de datos sin etiquetas o clases previamente definidas. Es decir, a priori no se conoce ningún valor objetivo o de clase, ya sea categórico o numérico. El aprendizaje no supervisado está dedicado a las tareas de agrupamiento, también llamadas clustering o segmentación, donde su objetivo es encontrar grupos similares en el conjunto de datos.
Existen dos grupos principales de métodos o algoritmos de agrupamiento:
1. Los métodos jerárquicos, que producen una organización jerárquica de las instancias que forman el conjunto de datos, posibilitando de esta forma distintos niveles de agrupación.
2. Los métodos particionales o no jerárquicos, que generan grupos de instancias que no responden a ningún tipo de organización jerárquica.
Ejemplos de este tipo de métodos serían el agrupamiento jerárquico y k-means.