AI-901
Deep Dive
El dominio D5 representa ~25% del AI-901. Cubre cómo funcionan los modelos generativos, sus límites y cómo trabajar con ellos eficazmente mediante prompts y RAG.
Contenido
IA Generativa es el conjunto de modelos capaces de crear contenido nuevo — texto, imágenes, código, audio, video — que no existía antes en los datos de entrenamiento. A diferencia del ML tradicional (que predice o clasifica), GenAI genera.
✍️
Genera Texto
ChatGPT, Claude, Gemini — redacción, resúmenes, código, traducción.
🎨
Genera Imágenes
DALL-E, Stable Diffusion, Midjourney — generación y edición de imágenes.
💻
Genera Código
GitHub Copilot, GPT-4 — autocompletado, refactorización, generación de tests.
Un Large Language Model (LLM) es un modelo de deep learning entrenado sobre cantidades masivas de texto para predecir la siguiente palabra (token) en una secuencia. A través de este objetivo simple, aprende gramática, hechos, razonamiento y hasta código.
Pre-training
Entrenado con billones de tokens de internet, libros, código. El proceso requiere miles de GPUs durante meses.
Emergent capabilities
Capacidades que aparecen espontáneamente al aumentar el tamaño: razonamiento lógico, aritmética, analogías — sin entrenamiento específico.
In-context learning
El LLM puede aprender tareas nuevas solo con ejemplos en el prompt, sin reentrenarse.
Parametric knowledge
El conocimiento queda codificado en los pesos del modelo. No tiene acceso a internet salvo que se integre explícitamente.
GPT-4o / GPT-4
OpenAI / Azure
Multimodal. Razonamiento avanzado. Disponible en Azure OpenAI.
GPT-3.5-turbo
OpenAI / Azure
Eficiente y económico. Chat y completions. Muy usado en producción.
Claude 3.x
Anthropic
Enfocado en safety y contexto largo. Disponible fuera de Azure.
Llama 3
Meta (open)
Open-weights. Se puede desplegar on-premise o en Azure via Model Catalog.
Phi-3 / Phi-4
Microsoft
SLM (Small Language Model) — alta capacidad con menos parámetros. En Azure.
DALL-E 3
OpenAI / Azure
Generación de imágenes a partir de texto. En Azure OpenAI.
Todos los LLMs modernos se basan en la arquitectura Transformer (2017, "Attention Is All You Need"). Su innovación clave es el mecanismo de atención, que permite al modelo considerar todas las palabras del contexto simultáneamente en lugar de procesarlas secuencialmente.
Self-Attention
Cada token "presta atención" a todos los demás tokens del contexto para entender relaciones y dependencias.
Positional Encoding
Añade información sobre la posición de cada token en la secuencia (el orden importa).
Feed-Forward Layers
Procesan la información después de la atención. Almacenan gran parte del "conocimiento" del modelo.
Layer Normalization
Estabiliza el entrenamiento y permite modelos muy profundos (100+ capas).
RNN/LSTM procesaban secuencialmente
→ Transformer procesa en paralelo → mucho más rápido
Dependencias largas se "olvidaban"
→ Atención mantiene contexto global
Difícil escalar a más GPU
→ Paralelizable → escala a miles de GPUs
Modelos especializados por tarea
→ Un modelo base para muchas tareas (transfer learning)
Para el examen
No necesitas entender la matemática de los Transformers. Sí necesitas saber: (1) son la base de los LLMs modernos, (2) usan mecanismos de atención, (3) se benefician de la paralelización.
Los LLMs no procesan palabras — procesan tokens. Un token puede ser una palabra completa, parte de una palabra, o un carácter. En inglés, 1 token ≈ 0.75 palabras. En español y otros idiomas, la proporción puede ser menor.
// Ejemplo de tokenización (GPT-4)
"ChatGPT is great!"
["Chat", "G", "PT", " is", " great", "!"]
// 6 tokens, 4 palabras
Por qué importa
Los LLMs cobran por token (input + output). El límite de contexto también se mide en tokens. Los textos en otros idiomas suelen usar más tokens que en inglés para el mismo contenido.
La context window es la cantidad máxima de tokens que el modelo puede "ver" en una sola llamada — incluye el prompt, el historial de conversación y la respuesta generada.
Consecuencias del límite de contexto
Si la conversación o documento supera el límite, el modelo "olvida" las partes más antiguas. Para documentos largos → RAG. Para conversaciones largas → resumir el historial.
Prompt engineering es la práctica de diseñar y estructurar instrucciones (prompts) para obtener el mejor resultado de un LLM sin modificar los pesos del modelo.
Zero-shot prompting
Pides la tarea directamente sin ejemplos. Funciona bien para tareas simples.
"Traduce al inglés: El gato duerme."
Few-shot prompting
Proporcionas 2-5 ejemplos de input/output antes de la tarea real. Mejora consistencia en tareas complejas.
"Formal: Buenos días. Informal: Holi. → Formal: Por favor..."
Chain-of-thought (CoT)
Pides al modelo que razone paso a paso antes de dar la respuesta final. Mejora el razonamiento matemático y lógico.
"Piensa paso a paso y luego dame la respuesta."
System prompt
Instrucción de contexto que define el rol, formato de respuesta y restricciones. Se envía antes del historial de conversación.
"Eres un asistente técnico. Responde en español. Sé conciso."
Temperature
0.0 – 2.0Controla aleatoriedad. 0 = determinístico/repetible; 2 = muy creativo/caótico. Para extracción de datos: temperatura baja. Para creatividad: temperatura alta.
Top-p (nucleus sampling)
0.0 – 1.0Considera solo los tokens cuya probabilidad acumulada llega a p. 0.9 = considera el 90% más probable. Alternativa a temperature.
Max tokens
número enteroLímite de tokens que el modelo puede generar en la respuesta. Importante para costos y latencia.
Stop sequences
stringsEl modelo para de generar cuando encuentra estas secuencias. Útil para formatos estructurados.
Trampa de examen: temperatura
Temperatura 0 ≠ mejor calidad. Significa más determinismo. Para creatividad (brainstorming, escritura) → temperatura alta. Para extracción precisa de datos → temperatura baja o 0.
RAG combina un LLM con una base de conocimiento externa. En vez de depender solo del conocimiento del modelo (que puede estar desactualizado), RAG busca documentos relevantes y los incluye en el contexto antes de generar la respuesta.
Indexación
Los documentos se dividen en chunks, se convierten en embeddings (vectores numéricos) y se almacenan en una vector database (ej: Azure AI Search).
Query del usuario
La pregunta del usuario también se convierte en un embedding.
Retrieval (búsqueda)
Se buscan los chunks más similares semánticamente a la pregunta usando similitud coseno u otras métricas vectoriales.
Augmentation (enriquecimiento)
Los chunks recuperados se incluyen en el prompt como contexto adicional: "Basándote en estos documentos, responde...".
Generation (generación)
El LLM genera la respuesta fundamentada en los documentos recuperados, no solo en su conocimiento entrenado.
Ventajas de RAG
Cuándo usar RAG
| Dimensión | Fine-tuning | Prompting / RAG |
|---|---|---|
| Qué modifica | Los pesos del modelo | Solo el input al modelo |
| Costo | Alto (GPU, tiempo, datos) | Bajo (solo tokens de API) |
| Datos necesarios | Miles de ejemplos etiquetados | Pocos o ningún ejemplo |
| Tiempo de implementación | Días/semanas | Horas |
| Mejor para | Estilo, formato, tono muy específico | Nuevo conocimiento, personalización |
| Actualización del conocimiento | Requiere reentrenamiento | Actualiza el índice/documentos |
Regla para el examen
Si la pregunta describe necesidad de nuevo conocimiento o datos recientes → RAG. Si describe necesidad de un estilo o comportamiento muy específico (ej: responder siempre con el tono y jerga de la marca) → Fine-tuning. En duda, RAG primero — es más rápido y económico.
Alucinación es cuando un LLM genera información incorrecta con total confianza — inventando hechos, citas, personas o datos que no existen. Es la limitación más crítica para despliegues en producción.
Alucinaciones
Genera información falsa con aparente confianza. No puede "saber que no sabe".
Knowledge cutoff
No conoce eventos posteriores a su fecha de entrenamiento. RAG mitiga esto.
Context limit
No puede procesar documentos o conversaciones que superen la ventana de contexto.
Razonamiento matemático
Puede fallar en cálculos complejos. Se mitiga con code interpreter o herramientas externas.
Sesgo
Hereda sesgos de los datos de entrenamiento (texto de internet, libros).
No determinismo
Con temperatura > 0, la misma pregunta puede dar respuestas distintas en cada llamada.
Knowledge cutoff, alucinaciones sobre hechos
Reducir variabilidad en tareas factuales
Pedir al modelo que cite sus fuentes
Bloquear respuestas dañinas o inapropiadas
Revisión humana en decisiones de alto impacto
Hechos críticos verificados por sistema separado
Los modelos multimodales pueden procesar y generar múltiples tipos de datos — texto, imágenes, audio, video — en una sola arquitectura.
Texto + Imagen (input)
GPT-4o, Claude 3, Gemini — pueden "ver" imágenes y responder preguntas sobre ellas.
Analizar capturas de pantalla, describir gráficas, leer documentos escaneados.
Texto → Imagen (output)
DALL-E 3, Stable Diffusion, Imagen — generan imágenes a partir de descripciones textuales.
Marketing visual, prototipos de diseño, ilustraciones personalizadas.
Texto + Audio
GPT-4o puede transcribir, responder y generar audio. Whisper para transcripción.
Asistentes de voz, transcripción + análisis, podcasts automatizados.
Video
Gemini 1.5 puede analizar video. Sora genera video a partir de texto.
Resúmenes de videos, moderación de contenido, generación de clips.
❓ ¿La IA Generativa siempre genera información correcta?
No. Los LLMs pueden alucinar — generar información falsa con aparente confianza. Esta es su limitación más conocida. Para reducir alucinaciones: usar RAG (anclar respuestas en documentos), bajar temperatura, pedir citas de fuentes.
❓ ¿RAG modifica los pesos del modelo?
No. RAG no modifica el modelo en absoluto — solo enriquece el prompt con documentos recuperados antes de que el modelo genere. Fine-tuning sí modifica los pesos. RAG ≠ fine-tuning.
❓ ¿Temperatura alta mejora la precisión?
No. Temperatura alta = más creatividad y variabilidad. Para tareas que requieren precisión factual (extracción de datos, respuestas verificables) → temperatura baja o 0. Para creatividad (brainstorming, escritura creativa) → temperatura alta.
❓ ¿Un LLM sabe todo lo que pasó hasta hoy?
No. Los LLMs tienen una fecha de corte de conocimiento (knowledge cutoff) — no conocen eventos posteriores a esa fecha. Solución: RAG con documentos actualizados o búsqueda web integrada.
¿Entendiste este tema?
Pon a prueba lo que acabas de aprender
Una empresa legal tiene miles de documentos internos de casos anteriores. Quieren un chatbot que responda preguntas de los abogados con información precisa y citando los documentos fuente. El conocimiento se actualiza con nuevos casos cada semana. ¿Cuál es la mejor arquitectura?