AI-901

Deep Dive

D5 · IA Generativa

IA Generativa — LLMs, Transformers, Prompts y RAG

El dominio D5 representa ~25% del AI-901. Cubre cómo funcionan los modelos generativos, sus límites y cómo trabajar con ellos eficazmente mediante prompts y RAG.

¿Qué es IA Generativa?

IA Generativa es el conjunto de modelos capaces de crear contenido nuevo — texto, imágenes, código, audio, video — que no existía antes en los datos de entrenamiento. A diferencia del ML tradicional (que predice o clasifica), GenAI genera.

✍️

Genera Texto

ChatGPT, Claude, Gemini — redacción, resúmenes, código, traducción.

🎨

Genera Imágenes

DALL-E, Stable Diffusion, Midjourney — generación y edición de imágenes.

💻

Genera Código

GitHub Copilot, GPT-4 — autocompletado, refactorización, generación de tests.

Modelos de lenguaje — LLM

Un Large Language Model (LLM) es un modelo de deep learning entrenado sobre cantidades masivas de texto para predecir la siguiente palabra (token) en una secuencia. A través de este objetivo simple, aprende gramática, hechos, razonamiento y hasta código.

Características clave

Pre-training

Entrenado con billones de tokens de internet, libros, código. El proceso requiere miles de GPUs durante meses.

Emergent capabilities

Capacidades que aparecen espontáneamente al aumentar el tamaño: razonamiento lógico, aritmética, analogías — sin entrenamiento específico.

In-context learning

El LLM puede aprender tareas nuevas solo con ejemplos en el prompt, sin reentrenarse.

Parametric knowledge

El conocimiento queda codificado en los pesos del modelo. No tiene acceso a internet salvo que se integre explícitamente.

Modelos destacados

GPT-4o / GPT-4

OpenAI / Azure

Multimodal. Razonamiento avanzado. Disponible en Azure OpenAI.

GPT-3.5-turbo

OpenAI / Azure

Eficiente y económico. Chat y completions. Muy usado en producción.

Claude 3.x

Anthropic

Enfocado en safety y contexto largo. Disponible fuera de Azure.

Llama 3

Meta (open)

Open-weights. Se puede desplegar on-premise o en Azure via Model Catalog.

Phi-3 / Phi-4

Microsoft

SLM (Small Language Model) — alta capacidad con menos parámetros. En Azure.

DALL-E 3

OpenAI / Azure

Generación de imágenes a partir de texto. En Azure OpenAI.

Arquitectura Transformer

Todos los LLMs modernos se basan en la arquitectura Transformer (2017, "Attention Is All You Need"). Su innovación clave es el mecanismo de atención, que permite al modelo considerar todas las palabras del contexto simultáneamente en lugar de procesarlas secuencialmente.

Componentes clave

Self-Attention

Cada token "presta atención" a todos los demás tokens del contexto para entender relaciones y dependencias.

Positional Encoding

Añade información sobre la posición de cada token en la secuencia (el orden importa).

Feed-Forward Layers

Procesan la información después de la atención. Almacenan gran parte del "conocimiento" del modelo.

Layer Normalization

Estabiliza el entrenamiento y permite modelos muy profundos (100+ capas).

Por qué los Transformers cambiaron todo

RNN/LSTM procesaban secuencialmente

Transformer procesa en paralelo → mucho más rápido

Dependencias largas se "olvidaban"

Atención mantiene contexto global

Difícil escalar a más GPU

Paralelizable → escala a miles de GPUs

Modelos especializados por tarea

Un modelo base para muchas tareas (transfer learning)

Para el examen

No necesitas entender la matemática de los Transformers. Sí necesitas saber: (1) son la base de los LLMs modernos, (2) usan mecanismos de atención, (3) se benefician de la paralelización.

Tokens y ventana de contexto

¿Qué es un token?

Los LLMs no procesan palabras — procesan tokens. Un token puede ser una palabra completa, parte de una palabra, o un carácter. En inglés, 1 token ≈ 0.75 palabras. En español y otros idiomas, la proporción puede ser menor.

// Ejemplo de tokenización (GPT-4)

"ChatGPT is great!"

["Chat", "G", "PT", " is", " great", "!"]

// 6 tokens, 4 palabras

Por qué importa

Los LLMs cobran por token (input + output). El límite de contexto también se mide en tokens. Los textos en otros idiomas suelen usar más tokens que en inglés para el mismo contenido.

Ventana de contexto

La context window es la cantidad máxima de tokens que el modelo puede "ver" en una sola llamada — incluye el prompt, el historial de conversación y la respuesta generada.

GPT-3.5-turbo
16K tokens≈ 12.000 palabras
GPT-4o
128K tokens≈ 96.000 palabras
Claude 3.5 Sonnet
200K tokens≈ 150.000 palabras
Gemini 1.5 Pro
1M tokens≈ 750.000 palabras

Consecuencias del límite de contexto

Si la conversación o documento supera el límite, el modelo "olvida" las partes más antiguas. Para documentos largos → RAG. Para conversaciones largas → resumir el historial.

Prompt Engineering

Prompt engineering es la práctica de diseñar y estructurar instrucciones (prompts) para obtener el mejor resultado de un LLM sin modificar los pesos del modelo.

Técnicas principales

Zero-shot prompting

Pides la tarea directamente sin ejemplos. Funciona bien para tareas simples.

"Traduce al inglés: El gato duerme."

Few-shot prompting

Proporcionas 2-5 ejemplos de input/output antes de la tarea real. Mejora consistencia en tareas complejas.

"Formal: Buenos días. Informal: Holi. → Formal: Por favor..."

Chain-of-thought (CoT)

Pides al modelo que razone paso a paso antes de dar la respuesta final. Mejora el razonamiento matemático y lógico.

"Piensa paso a paso y luego dame la respuesta."

System prompt

Instrucción de contexto que define el rol, formato de respuesta y restricciones. Se envía antes del historial de conversación.

"Eres un asistente técnico. Responde en español. Sé conciso."

Parámetros de generación

Temperature

0.0 – 2.0

Controla aleatoriedad. 0 = determinístico/repetible; 2 = muy creativo/caótico. Para extracción de datos: temperatura baja. Para creatividad: temperatura alta.

Top-p (nucleus sampling)

0.0 – 1.0

Considera solo los tokens cuya probabilidad acumulada llega a p. 0.9 = considera el 90% más probable. Alternativa a temperature.

Max tokens

número entero

Límite de tokens que el modelo puede generar en la respuesta. Importante para costos y latencia.

Stop sequences

strings

El modelo para de generar cuando encuentra estas secuencias. Útil para formatos estructurados.

Trampa de examen: temperatura

Temperatura 0 ≠ mejor calidad. Significa más determinismo. Para creatividad (brainstorming, escritura) → temperatura alta. Para extracción precisa de datos → temperatura baja o 0.

RAG — Retrieval Augmented Generation

RAG combina un LLM con una base de conocimiento externa. En vez de depender solo del conocimiento del modelo (que puede estar desactualizado), RAG busca documentos relevantes y los incluye en el contexto antes de generar la respuesta.

Cómo funciona RAG

1

Indexación

Los documentos se dividen en chunks, se convierten en embeddings (vectores numéricos) y se almacenan en una vector database (ej: Azure AI Search).

2

Query del usuario

La pregunta del usuario también se convierte en un embedding.

3

Retrieval (búsqueda)

Se buscan los chunks más similares semánticamente a la pregunta usando similitud coseno u otras métricas vectoriales.

4

Augmentation (enriquecimiento)

Los chunks recuperados se incluyen en el prompt como contexto adicional: "Basándote en estos documentos, responde...".

5

Generation (generación)

El LLM genera la respuesta fundamentada en los documentos recuperados, no solo en su conocimiento entrenado.

Ventajas de RAG

Respuestas actualizadas sin reentrenar el modelo
Cita fuentes → más verificable
Reduce alucinaciones al anclar respuestas en documentos
Funciona con documentos privados/empresariales
Más económico que fine-tuning para nuevo conocimiento

Cuándo usar RAG

Base de conocimiento interna de la empresa
Documentación técnica que se actualiza frecuentemente
Preguntas sobre datos posteriores al corte de entrenamiento
Reducir costos vs fine-tuning
Cuando la fuente y la cita importan (legal, médico)

Fine-tuning vs Prompting

DimensiónFine-tuningPrompting / RAG
Qué modificaLos pesos del modeloSolo el input al modelo
CostoAlto (GPU, tiempo, datos)Bajo (solo tokens de API)
Datos necesariosMiles de ejemplos etiquetadosPocos o ningún ejemplo
Tiempo de implementaciónDías/semanasHoras
Mejor paraEstilo, formato, tono muy específicoNuevo conocimiento, personalización
Actualización del conocimientoRequiere reentrenamientoActualiza el índice/documentos

Regla para el examen

Si la pregunta describe necesidad de nuevo conocimiento o datos recientes → RAG. Si describe necesidad de un estilo o comportamiento muy específico (ej: responder siempre con el tono y jerga de la marca) → Fine-tuning. En duda, RAG primero — es más rápido y económico.

Limitaciones y alucinaciones

Alucinación es cuando un LLM genera información incorrecta con total confianza — inventando hechos, citas, personas o datos que no existen. Es la limitación más crítica para despliegues en producción.

Tipos de limitaciones

Alucinaciones

Genera información falsa con aparente confianza. No puede "saber que no sabe".

Knowledge cutoff

No conoce eventos posteriores a su fecha de entrenamiento. RAG mitiga esto.

Context limit

No puede procesar documentos o conversaciones que superen la ventana de contexto.

Razonamiento matemático

Puede fallar en cálculos complejos. Se mitiga con code interpreter o herramientas externas.

Sesgo

Hereda sesgos de los datos de entrenamiento (texto de internet, libros).

No determinismo

Con temperatura > 0, la misma pregunta puede dar respuestas distintas en cada llamada.

Mitigaciones

RAG

Knowledge cutoff, alucinaciones sobre hechos

Temperature = 0

Reducir variabilidad en tareas factuales

Grounding con fuentes

Pedir al modelo que cite sus fuentes

Content filtering

Bloquear respuestas dañinas o inapropiadas

Human-in-the-loop

Revisión humana en decisiones de alto impacto

Verificación externa

Hechos críticos verificados por sistema separado

Modelos multimodales

Los modelos multimodales pueden procesar y generar múltiples tipos de datos — texto, imágenes, audio, video — en una sola arquitectura.

Texto + Imagen (input)

GPT-4o, Claude 3, Gemini — pueden "ver" imágenes y responder preguntas sobre ellas.

Analizar capturas de pantalla, describir gráficas, leer documentos escaneados.

Texto → Imagen (output)

DALL-E 3, Stable Diffusion, Imagen — generan imágenes a partir de descripciones textuales.

Marketing visual, prototipos de diseño, ilustraciones personalizadas.

Texto + Audio

GPT-4o puede transcribir, responder y generar audio. Whisper para transcripción.

Asistentes de voz, transcripción + análisis, podcasts automatizados.

Video

Gemini 1.5 puede analizar video. Sora genera video a partir de texto.

Resúmenes de videos, moderación de contenido, generación de clips.

Trampas frecuentes del examen

¿La IA Generativa siempre genera información correcta?

No. Los LLMs pueden alucinar — generar información falsa con aparente confianza. Esta es su limitación más conocida. Para reducir alucinaciones: usar RAG (anclar respuestas en documentos), bajar temperatura, pedir citas de fuentes.

¿RAG modifica los pesos del modelo?

No. RAG no modifica el modelo en absoluto — solo enriquece el prompt con documentos recuperados antes de que el modelo genere. Fine-tuning sí modifica los pesos. RAG ≠ fine-tuning.

¿Temperatura alta mejora la precisión?

No. Temperatura alta = más creatividad y variabilidad. Para tareas que requieren precisión factual (extracción de datos, respuestas verificables) → temperatura baja o 0. Para creatividad (brainstorming, escritura creativa) → temperatura alta.

¿Un LLM sabe todo lo que pasó hasta hoy?

No. Los LLMs tienen una fecha de corte de conocimiento (knowledge cutoff) — no conocen eventos posteriores a esa fecha. Solución: RAG con documentos actualizados o búsqueda web integrada.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una empresa legal tiene miles de documentos internos de casos anteriores. Quieren un chatbot que responda preguntas de los abogados con información precisa y citando los documentos fuente. El conocimiento se actualiza con nuevos casos cada semana. ¿Cuál es la mejor arquitectura?