AI-901
Deep Dive
El AI-901 evalúa los conceptos base de ML: tipos de aprendizaje, tareas (regresión, clasificación, clustering), el flujo de entrenamiento e inferencia, y métricas de evaluación. Sin necesidad de escribir código.
Contenido
Machine Learning es una rama de la IA en la que los sistemas aprenden patrones de datos sin ser explícitamente programados con reglas. En vez de if temperatura > 38 then fiebre, el sistema aprende esa regla (y miles más) analizando millones de registros de pacientes.
Programación tradicional
datos + reglas → respuestas
El programador define las reglas manualmente. Escala mal: imposible cubrir todos los casos del mundo real.
Machine Learning
datos + respuestas → reglas
El sistema aprende las reglas de los datos. Escala bien: cuantos más datos, mejor el modelo.
Vocabulario esencial del examen
Feature (característica)
Variable de entrada que el modelo usa para predecir. Ej: edad, ingreso, historial de pagos.
Label (etiqueta)
Variable de salida que queremos predecir. Ej: aprobado/rechazado, precio de la casa.
Training data
Conjunto de datos con features y labels conocidos que se usan para entrenar el modelo.
Inferencia
Usar el modelo entrenado para hacer predicciones sobre datos nuevos (producción).
Modelo
El resultado del entrenamiento — el conjunto de parámetros aprendidos que transforma features en predicciones.
Algoritmo
El método matemático usado para aprender del training data. Ej: regresión lineal, random forest, red neuronal.
Aprendizaje Supervisado
Entrenas con datos ETIQUETADOS — cada ejemplo tiene la respuesta correcta. El modelo aprende a mapear features → label.
Tareas típicas
Ejemplos del mundo real
Predicción de precios, detección de spam, diagnóstico de enfermedades, reconocimiento de imágenes.
Aprendizaje No Supervisado
Entrenas con datos SIN ETIQUETAR — el modelo descubre estructura y patrones por sí solo.
Tareas típicas
Ejemplos del mundo real
Segmentación de clientes, compresión de datos, descubrimiento de tópicos en textos.
Aprendizaje por Refuerzo
El modelo (agente) aprende tomando ACCIONES en un entorno y recibiendo RECOMPENSAS o PENALIZACIONES. Optimiza su estrategia con el tiempo.
Tareas típicas
Ejemplos del mundo real
AlphaGo, control de robots, optimización de data centers, bots de trading.
La regresión predice un valor numérico continuo. La respuesta puede ser cualquier número dentro de un rango. Ejemplos: precio de una casa, temperatura mañana, ventas del próximo mes.
Algoritmos comunes
Regresión lineal
Ajusta una línea recta a los datos. Simple e interpretable.
Regresión polinomial
Ajusta curvas para relaciones no lineales.
Random Forest (Regresión)
Combina múltiples árboles de decisión — más robusto.
Gradient Boosting
Árboles en secuencia, cada uno corrige errores del anterior.
Métricas de evaluación
MAE — Mean Absolute Error
Promedio de los errores absolutos. Fácil de interpretar: "en promedio me equivoco en $X".
MSE — Mean Squared Error
Promedio de errores al cuadrado. Penaliza errores grandes más que MAE.
RMSE — Root Mean Squared Error
Raíz cuadrada del MSE. Misma unidad que el target — más interpretable que MSE.
R² (R-cuadrado)
Qué tanto el modelo explica la varianza del target. 1.0 = perfecto, 0 = no mejor que la media.
La clasificación predice a qué categoría discreta pertenece un dato. La respuesta es una clase: spam/no spam, positivo/negativo/neutro, gato/perro/pájaro.
Clasificación binaria
Solo 2 clases posibles. La salida es una probabilidad entre 0 y 1.
Email: spam (1) vs no spam (0)
Transacción: fraude (1) vs legítima (0)
Prueba médica: positivo (1) vs negativo (0)
Préstamo: aprobado (1) vs rechazado (0)
Clasificación multiclase
3 o más clases posibles. El modelo asigna probabilidad a cada clase.
Sentimiento: positivo / negativo / neutro
Dígito escrito: 0, 1, 2, ... 9
Especie: gato / perro / pájaro / pez
Soporte: facturación / técnico / comercial
Métricas de evaluación clave
Accuracy (Precisión global)
Porcentaje de predicciones correctas. ⚠️ Engañosa con clases desbalanceadas: si el 99% de emails son legítimos, un modelo que siempre dice "legítimo" tiene 99% accuracy sin detectar spam.
Precision
De todos los que predijo como positivos, ¿cuántos realmente son positivos? Alta precision = pocos falsos positivos.
Recall (Sensibilidad)
De todos los que realmente son positivos, ¿cuántos detectó? Alto recall = pocos falsos negativos. Crítico en medicina (no perder enfermos).
F1 Score
Media harmónica de Precision y Recall. Balancea ambas métricas — útil cuando las clases son desbalanceadas.
Clustering es aprendizaje no supervisado. No hay etiquetas de entrenamiento — el algoritmo descubre grupos de datos similares por sí solo. Útil cuando no sabes de antemano cuántas categorías existen.
👥
Segmentación de clientes
Agrupar clientes por comportamiento de compra sin saber de antemano cuántos segmentos existen. Cada cluster se analiza después para definir estrategias.
📄
Agrupación de documentos
Identificar tópicos recurrentes en miles de artículos de soporte sin etiquetarlos manualmente. Los clusters revelan los temas más frecuentes.
⚠️
Detección de anomalías
Puntos que no pertenecen a ningún cluster (outliers) son candidatos a anomalías: transacciones fraudulentas, errores en sensores industriales.
Trampa de examen
Clustering es no supervisado — no necesitas etiquetas. Si el escenario menciona que "no se saben las categorías de antemano" o "hay que descubrir grupos", es clustering. Si hay etiquetas y quieres predecir una categoría, es clasificación.
Deep Learning es una rama del Machine Learning basada en redes neuronales artificiales con múltiples capas ocultas. Aprende representaciones jerárquicas de los datos — detecta bordes → formas → objetos en imágenes, o palabras → frases → significado en texto.
Anatomía de una red neuronal
Input layer
Recibe los datos de entrada (features). Un nodo por feature.
Hidden layers
Capas ocultas que aprenden representaciones. Más capas = "más profunda" = deep learning.
Output layer
Produce la predicción final (número para regresión, probabilidades para clasificación).
Neurona (nodo)
Unidad básica. Recibe entradas, aplica una función de activación, emite una salida.
Peso (weight)
Valor ajustable que pondera la importancia de cada conexión entre neuronas. El modelo aprende los pesos óptimos.
Función de activación
ReLU, sigmoid, tanh — introduce no-linealidad para que la red aprenda patrones complejos.
Backpropagation
Algoritmo de entrenamiento: calcula el error, propaga hacia atrás, ajusta los pesos para minimizarlo.
CNN — Convolutional Neural Networks
Especializadas en datos con estructura espacial: imágenes y video. Detectan patrones locales (bordes, texturas) mediante filtros convolucionales y los combinan en representaciones de alto nivel.
Reconocimiento de imágenes y objetos
Clasificación visual (Azure Custom Vision usa CNNs)
Detección de enfermedades en imágenes médicas
Reconocimiento facial
RNN / LSTM — Recurrent Neural Networks
Especializadas en datos secuenciales donde el orden importa. Tienen "memoria" interna que conecta información de pasos anteriores. LSTM (Long Short-Term Memory) resuelve el problema de dependencias largas.
Traducción automática (antes del Transformer)
Predicción de series de tiempo
Generación de texto secuencial
Reconocimiento de voz clásico
ML clásico vs Deep Learning
ML clásico (regresión, random forest…)
Requiere feature engineering manual. Funciona bien con pocos datos. Más interpretable.
Deep Learning (redes neuronales)
Aprende features automáticamente. Necesita grandes volúmenes de datos y GPU. Mejor en imágenes, audio y texto no estructurado.
El Transformer (Google, 2017 — paper "Attention is All You Need") reemplazó a las RNNs como arquitectura dominante en NLP y luego en visión. Procesa toda la secuencia en paralelo en lugar de paso a paso, lo que permite escalar masivamente y capturar relaciones de largo alcance en el texto.
Componentes clave
Self-Attention
Permite que cada token de la secuencia "atienda" a todos los demás tokens simultáneamente. Captura relaciones semánticas independientemente de la distancia.
Multi-Head Attention
Múltiples mecanismos de atención en paralelo, cada uno enfocado en distintos aspectos de las relaciones entre tokens.
Positional Encoding
Inyecta información sobre la posición de cada token en la secuencia, ya que el Transformer procesa en paralelo y no tiene noción de orden inherente.
Feed-Forward layers
Capas densas que procesan cada token independientemente después de la atención. Aprenden transformaciones no lineales.
Variantes por caso de uso
Encoder-only (BERT)
Procesa texto en ambas direcciones. Ideal para comprensión: clasificación de sentimiento, NER, búsqueda semántica.
Decoder-only (GPT)
Genera texto de izquierda a derecha (autoregresivo). Ideal para generación: completación, chat, código. GPT-4, Phi, Llama son decoder-only.
Encoder-Decoder (T5, BART)
Combina ambas partes. Ideal para transformaciones: traducción, resumen, pregunta-respuesta.
Tokenización
El Transformer no procesa letras ni palabras — procesa tokens (fragmentos de texto). "Azure" puede ser 1 token; "extraordinario" puede ser 3-4. GPT-4o maneja hasta 128,000 tokens de contexto.
Por qué el Transformer domina
Paralelización
Procesa toda la secuencia a la vez, no token por token. Permite entrenar con miles de GPUs simultáneamente.
Escala
A más parámetros y datos, más capacidad. GPT-2: 1.5B params. GPT-4: estimado >1T. Las RNNs no escalaban así.
Transfer learning
Pre-entrenas una vez en billones de textos (base model). Luego ajustas (fine-tune) para cada tarea específica.
1. Recopilación de datos
Reunir datos históricos relevantes con suficiente volumen y calidad. Basura entra, basura sale — la calidad de los datos determina la calidad del modelo.
2. Preparación de datos
Limpiar valores nulos, eliminar duplicados, normalizar features, codificar variables categóricas, dividir en train/validation/test sets.
3. Selección de características (Feature Engineering)
Elegir qué features incluir, transformar variables existentes, crear nuevas features que capturen patrones relevantes.
4. Entrenamiento del modelo
El algoritmo procesa el training set y ajusta sus parámetros internos para minimizar el error de predicción. En Azure: Azure ML, AutoML.
5. Evaluación del modelo
Medir el rendimiento en el validation set (datos que el modelo no vio durante entrenamiento). Ajustar hiperparámetros si es necesario.
6. Despliegue e inferencia
Publicar el modelo como endpoint REST. Nuevos datos entran, predicciones salen. En Azure: Managed Online Endpoints / Batch Endpoints.
| Métrica | Tipo de tarea | Mide |
|---|---|---|
| MAE / RMSE | Regresión | Error promedio en las predicciones numéricas |
| R² | Regresión | Qué % de la varianza explica el modelo (0-1) |
| Accuracy | Clasificación | % de predicciones correctas (¡cuidado con clases desbalanceadas!) |
| Precision | Clasificación | De los predichos positivos, cuántos son realmente positivos |
| Recall | Clasificación | De los positivos reales, cuántos detectó el modelo |
| F1 Score | Clasificación | Balance entre Precision y Recall |
| AUC-ROC | Clasificación binaria | Qué tan bien separa el modelo las dos clases (0.5 = azar, 1.0 = perfecto) |
📉
Underfitting
El modelo es demasiado simple. No aprende suficientemente bien — falla tanto en training data como en datos nuevos.
Causa
Modelo muy simple, pocos features, poco entrenamiento
Solución
Modelo más complejo, más features, más tiempo de entrenamiento
✅
Buen ajuste
El modelo generaliza bien. Bajo error tanto en datos de entrenamiento como en datos nuevos. El objetivo.
📈
Overfitting
El modelo memoriza el training data en vez de aprender patrones. Excelente en training, pésimo en datos nuevos.
Causa
Modelo demasiado complejo, pocos datos de entrenamiento
Solución
Más datos, regularización (L1/L2), dropout, early stopping
Clave para el examen
Split train/validation/test es la herramienta fundamental para detectar overfitting. Si el modelo tiene 98% accuracy en training y 60% en validation → overfitting. La solución clásica: más datos o modelo más simple.
¿Entendiste este tema?
Pon a prueba lo que acabas de aprender
Una empresa entrena un modelo de clasificación de imágenes médicas. El modelo alcanza 99% de accuracy en los datos de entrenamiento pero solo 61% en datos nuevos del hospital. ¿Cuál es el problema y cuál es la solución más apropiada?