AI-901

Deep Dive

D2 · Machine Learning en Azure

Fundamentos de Machine Learning

El AI-901 evalúa los conceptos base de ML: tipos de aprendizaje, tareas (regresión, clasificación, clustering), el flujo de entrenamiento e inferencia, y métricas de evaluación. Sin necesidad de escribir código.

Contenido

¿Qué es Machine Learning?
Supervisado vs No supervisado vs Refuerzo
Regresión — predecir números
Clasificación — predecir categorías
Clustering — encontrar grupos
Deep Learning — redes neuronales
Arquitectura Transformer
Flujo de trabajo de ML
Métricas de evaluación
Overfitting y Underfitting

¿Qué es Machine Learning?

Machine Learning es una rama de la IA en la que los sistemas aprenden patrones de datos sin ser explícitamente programados con reglas. En vez de if temperatura > 38 then fiebre, el sistema aprende esa regla (y miles más) analizando millones de registros de pacientes.

Programación tradicional

datos + reglas → respuestas

El programador define las reglas manualmente. Escala mal: imposible cubrir todos los casos del mundo real.

Machine Learning

datos + respuestas → reglas

El sistema aprende las reglas de los datos. Escala bien: cuantos más datos, mejor el modelo.

Vocabulario esencial del examen

Feature (característica)

Variable de entrada que el modelo usa para predecir. Ej: edad, ingreso, historial de pagos.

Label (etiqueta)

Variable de salida que queremos predecir. Ej: aprobado/rechazado, precio de la casa.

Training data

Conjunto de datos con features y labels conocidos que se usan para entrenar el modelo.

Inferencia

Usar el modelo entrenado para hacer predicciones sobre datos nuevos (producción).

Modelo

El resultado del entrenamiento — el conjunto de parámetros aprendidos que transforma features en predicciones.

Algoritmo

El método matemático usado para aprender del training data. Ej: regresión lineal, random forest, red neuronal.

Supervisado vs No supervisado vs Refuerzo

🏷️

Aprendizaje Supervisado

Entrenas con datos ETIQUETADOS — cada ejemplo tiene la respuesta correcta. El modelo aprende a mapear features → label.

Tareas típicas

Regresión (predecir un número)
Clasificación binaria (sí/no)
Clasificación multiclase (categoría A/B/C/D)

Ejemplos del mundo real

Predicción de precios, detección de spam, diagnóstico de enfermedades, reconocimiento de imágenes.

🗂️

Aprendizaje No Supervisado

Entrenas con datos SIN ETIQUETAR — el modelo descubre estructura y patrones por sí solo.

Tareas típicas

Clustering (agrupar por similitud)
Reducción de dimensionalidad
Detección de anomalías

Ejemplos del mundo real

Segmentación de clientes, compresión de datos, descubrimiento de tópicos en textos.

🎮

Aprendizaje por Refuerzo

El modelo (agente) aprende tomando ACCIONES en un entorno y recibiendo RECOMPENSAS o PENALIZACIONES. Optimiza su estrategia con el tiempo.

Tareas típicas

Juegos (alcanzar puntuación máxima)
Robótica (controlar movimientos)
Optimización (rutas, trading)

Ejemplos del mundo real

AlphaGo, control de robots, optimización de data centers, bots de trading.

Regresión — predecir un número continuo

La regresión predice un valor numérico continuo. La respuesta puede ser cualquier número dentro de un rango. Ejemplos: precio de una casa, temperatura mañana, ventas del próximo mes.

Algoritmos comunes

Regresión lineal

Ajusta una línea recta a los datos. Simple e interpretable.

Regresión polinomial

Ajusta curvas para relaciones no lineales.

Random Forest (Regresión)

Combina múltiples árboles de decisión — más robusto.

Gradient Boosting

Árboles en secuencia, cada uno corrige errores del anterior.

Métricas de evaluación

MAE — Mean Absolute Error

Promedio de los errores absolutos. Fácil de interpretar: "en promedio me equivoco en $X".

MSE — Mean Squared Error

Promedio de errores al cuadrado. Penaliza errores grandes más que MAE.

RMSE — Root Mean Squared Error

Raíz cuadrada del MSE. Misma unidad que el target — más interpretable que MSE.

R² (R-cuadrado)

Qué tanto el modelo explica la varianza del target. 1.0 = perfecto, 0 = no mejor que la media.

Clasificación — predecir una categoría

La clasificación predice a qué categoría discreta pertenece un dato. La respuesta es una clase: spam/no spam, positivo/negativo/neutro, gato/perro/pájaro.

Clasificación binaria

Solo 2 clases posibles. La salida es una probabilidad entre 0 y 1.

Email: spam (1) vs no spam (0)

Transacción: fraude (1) vs legítima (0)

Prueba médica: positivo (1) vs negativo (0)

Préstamo: aprobado (1) vs rechazado (0)

Clasificación multiclase

3 o más clases posibles. El modelo asigna probabilidad a cada clase.

Sentimiento: positivo / negativo / neutro

Dígito escrito: 0, 1, 2, ... 9

Especie: gato / perro / pájaro / pez

Soporte: facturación / técnico / comercial

Métricas de evaluación clave

Accuracy (Precisión global)

Porcentaje de predicciones correctas. ⚠️ Engañosa con clases desbalanceadas: si el 99% de emails son legítimos, un modelo que siempre dice "legítimo" tiene 99% accuracy sin detectar spam.

Precision

De todos los que predijo como positivos, ¿cuántos realmente son positivos? Alta precision = pocos falsos positivos.

Recall (Sensibilidad)

De todos los que realmente son positivos, ¿cuántos detectó? Alto recall = pocos falsos negativos. Crítico en medicina (no perder enfermos).

F1 Score

Media harmónica de Precision y Recall. Balancea ambas métricas — útil cuando las clases son desbalanceadas.

Clustering — encontrar grupos sin etiquetas

Clustering es aprendizaje no supervisado. No hay etiquetas de entrenamiento — el algoritmo descubre grupos de datos similares por sí solo. Útil cuando no sabes de antemano cuántas categorías existen.

👥

Segmentación de clientes

Agrupar clientes por comportamiento de compra sin saber de antemano cuántos segmentos existen. Cada cluster se analiza después para definir estrategias.

📄

Agrupación de documentos

Identificar tópicos recurrentes en miles de artículos de soporte sin etiquetarlos manualmente. Los clusters revelan los temas más frecuentes.

⚠️

Detección de anomalías

Puntos que no pertenecen a ningún cluster (outliers) son candidatos a anomalías: transacciones fraudulentas, errores en sensores industriales.

Trampa de examen

Clustering es no supervisado — no necesitas etiquetas. Si el escenario menciona que "no se saben las categorías de antemano" o "hay que descubrir grupos", es clustering. Si hay etiquetas y quieres predecir una categoría, es clasificación.

Deep Learning — redes neuronales profundas

Deep Learning es una rama del Machine Learning basada en redes neuronales artificiales con múltiples capas ocultas. Aprende representaciones jerárquicas de los datos — detecta bordes → formas → objetos en imágenes, o palabras → frases → significado en texto.

Anatomía de una red neuronal

Input layer

Recibe los datos de entrada (features). Un nodo por feature.

→

Hidden layers

Capas ocultas que aprenden representaciones. Más capas = "más profunda" = deep learning.

→

Output layer

Produce la predicción final (número para regresión, probabilidades para clasificación).

Neurona (nodo)

Unidad básica. Recibe entradas, aplica una función de activación, emite una salida.

Peso (weight)

Valor ajustable que pondera la importancia de cada conexión entre neuronas. El modelo aprende los pesos óptimos.

Función de activación

ReLU, sigmoid, tanh — introduce no-linealidad para que la red aprenda patrones complejos.

Backpropagation

Algoritmo de entrenamiento: calcula el error, propaga hacia atrás, ajusta los pesos para minimizarlo.

CNN — Convolutional Neural Networks

Especializadas en datos con estructura espacial: imágenes y video. Detectan patrones locales (bordes, texturas) mediante filtros convolucionales y los combinan en representaciones de alto nivel.

Reconocimiento de imágenes y objetos

Clasificación visual (Azure Custom Vision usa CNNs)

Detección de enfermedades en imágenes médicas

Reconocimiento facial

RNN / LSTM — Recurrent Neural Networks

Especializadas en datos secuenciales donde el orden importa. Tienen "memoria" interna que conecta información de pasos anteriores. LSTM (Long Short-Term Memory) resuelve el problema de dependencias largas.

Traducción automática (antes del Transformer)

Predicción de series de tiempo

Generación de texto secuencial

Reconocimiento de voz clásico

ML clásico vs Deep Learning

ML clásico (regresión, random forest…)

Requiere feature engineering manual. Funciona bien con pocos datos. Más interpretable.

Deep Learning (redes neuronales)

Aprende features automáticamente. Necesita grandes volúmenes de datos y GPU. Mejor en imágenes, audio y texto no estructurado.

Arquitectura Transformer

El Transformer (Google, 2017 — paper "Attention is All You Need") reemplazó a las RNNs como arquitectura dominante en NLP y luego en visión. Procesa toda la secuencia en paralelo en lugar de paso a paso, lo que permite escalar masivamente y capturar relaciones de largo alcance en el texto.

Componentes clave

Self-Attention

Permite que cada token de la secuencia "atienda" a todos los demás tokens simultáneamente. Captura relaciones semánticas independientemente de la distancia.

Multi-Head Attention

Múltiples mecanismos de atención en paralelo, cada uno enfocado en distintos aspectos de las relaciones entre tokens.

Positional Encoding

Inyecta información sobre la posición de cada token en la secuencia, ya que el Transformer procesa en paralelo y no tiene noción de orden inherente.

Feed-Forward layers

Capas densas que procesan cada token independientemente después de la atención. Aprenden transformaciones no lineales.

Variantes por caso de uso

Encoder-only (BERT)

Procesa texto en ambas direcciones. Ideal para comprensión: clasificación de sentimiento, NER, búsqueda semántica.

Decoder-only (GPT)

Genera texto de izquierda a derecha (autoregresivo). Ideal para generación: completación, chat, código. GPT-4, Phi, Llama son decoder-only.

Encoder-Decoder (T5, BART)

Combina ambas partes. Ideal para transformaciones: traducción, resumen, pregunta-respuesta.

Tokenización

El Transformer no procesa letras ni palabras — procesa tokens (fragmentos de texto). "Azure" puede ser 1 token; "extraordinario" puede ser 3-4. GPT-4o maneja hasta 128,000 tokens de contexto.

Por qué el Transformer domina

Paralelización

Procesa toda la secuencia a la vez, no token por token. Permite entrenar con miles de GPUs simultáneamente.

Escala

A más parámetros y datos, más capacidad. GPT-2: 1.5B params. GPT-4: estimado >1T. Las RNNs no escalaban así.

Transfer learning

Pre-entrenas una vez en billones de textos (base model). Luego ajustas (fine-tune) para cada tarea específica.

Flujo de trabajo de ML

1. Recopilación de datos

Reunir datos históricos relevantes con suficiente volumen y calidad. Basura entra, basura sale — la calidad de los datos determina la calidad del modelo.

2. Preparación de datos

Limpiar valores nulos, eliminar duplicados, normalizar features, codificar variables categóricas, dividir en train/validation/test sets.

3. Selección de características (Feature Engineering)

Elegir qué features incluir, transformar variables existentes, crear nuevas features que capturen patrones relevantes.

4. Entrenamiento del modelo

El algoritmo procesa el training set y ajusta sus parámetros internos para minimizar el error de predicción. En Azure: Azure ML, AutoML.

5. Evaluación del modelo

Medir el rendimiento en el validation set (datos que el modelo no vio durante entrenamiento). Ajustar hiperparámetros si es necesario.

6. Despliegue e inferencia

Publicar el modelo como endpoint REST. Nuevos datos entran, predicciones salen. En Azure: Managed Online Endpoints / Batch Endpoints.

Métricas de evaluación — resumen

Métrica	Tipo de tarea	Mide
MAE / RMSE	Regresión	Error promedio en las predicciones numéricas
R²	Regresión	Qué % de la varianza explica el modelo (0-1)
Accuracy	Clasificación	% de predicciones correctas (¡cuidado con clases desbalanceadas!)
Precision	Clasificación	De los predichos positivos, cuántos son realmente positivos
Recall	Clasificación	De los positivos reales, cuántos detectó el modelo
F1 Score	Clasificación	Balance entre Precision y Recall
AUC-ROC	Clasificación binaria	Qué tan bien separa el modelo las dos clases (0.5 = azar, 1.0 = perfecto)

Overfitting y Underfitting

📉

Underfitting

El modelo es demasiado simple. No aprende suficientemente bien — falla tanto en training data como en datos nuevos.

Causa

Modelo muy simple, pocos features, poco entrenamiento

Solución

Modelo más complejo, más features, más tiempo de entrenamiento

✅

Buen ajuste

El modelo generaliza bien. Bajo error tanto en datos de entrenamiento como en datos nuevos. El objetivo.

📈

Overfitting

El modelo memoriza el training data en vez de aprender patrones. Excelente en training, pésimo en datos nuevos.

Causa

Modelo demasiado complejo, pocos datos de entrenamiento

Solución

Más datos, regularización (L1/L2), dropout, early stopping

Clave para el examen

Split train/validation/test es la herramienta fundamental para detectar overfitting. Si el modelo tiene 98% accuracy en training y 60% en validation → overfitting. La solución clásica: más datos o modelo más simple.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una empresa entrena un modelo de clasificación de imágenes médicas. El modelo alcanza 99% de accuracy en los datos de entrenamiento pero solo 61% en datos nuevos del hospital. ¿Cuál es el problema y cuál es la solución más apropiada?

Inicia sesión para llevar tu progreso.

AnteriorIA Responsable — los 6 principiosFundamentos de IA SiguienteAzure Machine LearningMachine Learning en Azure