AI-901

Deep Dive

D5 · IA Generativa

IA Generativa — LLMs, Transformers, Prompts y RAG

El dominio D5 representa ~25% del AI-901. Cubre cómo funcionan los modelos generativos, sus límites y cómo trabajar con ellos eficazmente mediante prompts y RAG.

Contenido

¿Qué es IA Generativa?
Modelos de lenguaje (LLM)
Arquitectura Transformer
Tokens y contexto
Prompt engineering
RAG — Retrieval Augmented Generation
Fine-tuning vs prompting
Limitaciones y alucinaciones
Modelos multimodales
Trampas frecuentes del examen

¿Qué es IA Generativa?

IA Generativa es el conjunto de modelos capaces de crear contenido nuevo — texto, imágenes, código, audio, video — que no existía antes en los datos de entrenamiento. A diferencia del ML tradicional (que predice o clasifica), GenAI genera.

✍️

Genera Texto

ChatGPT, Claude, Gemini — redacción, resúmenes, código, traducción.

🎨

Genera Imágenes

DALL-E, Stable Diffusion, Midjourney — generación y edición de imágenes.

💻

Genera Código

GitHub Copilot, GPT-4 — autocompletado, refactorización, generación de tests.

Modelos de lenguaje — LLM

Un Large Language Model (LLM) es un modelo de deep learning entrenado sobre cantidades masivas de texto para predecir la siguiente palabra (token) en una secuencia. A través de este objetivo simple, aprende gramática, hechos, razonamiento y hasta código.

Características clave

Pre-training

Entrenado con billones de tokens de internet, libros, código. El proceso requiere miles de GPUs durante meses.

Emergent capabilities

Capacidades que aparecen espontáneamente al aumentar el tamaño: razonamiento lógico, aritmética, analogías — sin entrenamiento específico.

In-context learning

El LLM puede aprender tareas nuevas solo con ejemplos en el prompt, sin reentrenarse.

Parametric knowledge

El conocimiento queda codificado en los pesos del modelo. No tiene acceso a internet salvo que se integre explícitamente.

Modelos destacados

GPT-4o / GPT-4

OpenAI / Azure

Multimodal. Razonamiento avanzado. Disponible en Azure OpenAI.

GPT-3.5-turbo

OpenAI / Azure

Eficiente y económico. Chat y completions. Muy usado en producción.

Claude 3.x

Anthropic

Enfocado en safety y contexto largo. Disponible fuera de Azure.

Llama 3

Meta (open)

Open-weights. Se puede desplegar on-premise o en Azure via Model Catalog.

Phi-3 / Phi-4

Microsoft

SLM (Small Language Model) — alta capacidad con menos parámetros. En Azure.

DALL-E 3

OpenAI / Azure

Generación de imágenes a partir de texto. En Azure OpenAI.

Arquitectura Transformer

Todos los LLMs modernos se basan en la arquitectura Transformer (2017, "Attention Is All You Need"). Su innovación clave es el mecanismo de atención, que permite al modelo considerar todas las palabras del contexto simultáneamente en lugar de procesarlas secuencialmente.

Componentes clave

Self-Attention

Cada token "presta atención" a todos los demás tokens del contexto para entender relaciones y dependencias.

Positional Encoding

Añade información sobre la posición de cada token en la secuencia (el orden importa).

Feed-Forward Layers

Procesan la información después de la atención. Almacenan gran parte del "conocimiento" del modelo.

Layer Normalization

Estabiliza el entrenamiento y permite modelos muy profundos (100+ capas).

Por qué los Transformers cambiaron todo

RNN/LSTM procesaban secuencialmente

→ Transformer procesa en paralelo → mucho más rápido

Dependencias largas se "olvidaban"

→ Atención mantiene contexto global

Difícil escalar a más GPU

→ Paralelizable → escala a miles de GPUs

Modelos especializados por tarea

→ Un modelo base para muchas tareas (transfer learning)

Para el examen

No necesitas entender la matemática de los Transformers. Sí necesitas saber: (1) son la base de los LLMs modernos, (2) usan mecanismos de atención, (3) se benefician de la paralelización.

Tokens y ventana de contexto

¿Qué es un token?

Los LLMs no procesan palabras — procesan tokens. Un token puede ser una palabra completa, parte de una palabra, o un carácter. En inglés, 1 token ≈ 0.75 palabras. En español y otros idiomas, la proporción puede ser menor.

// Ejemplo de tokenización (GPT-4)

"ChatGPT is great!"

["Chat", "G", "PT", " is", " great", "!"]

// 6 tokens, 4 palabras

Por qué importa

Los LLMs cobran por token (input + output). El límite de contexto también se mide en tokens. Los textos en otros idiomas suelen usar más tokens que en inglés para el mismo contenido.

Ventana de contexto

La context window es la cantidad máxima de tokens que el modelo puede "ver" en una sola llamada — incluye el prompt, el historial de conversación y la respuesta generada.

GPT-3.5-turbo

16K tokens≈ 12.000 palabras

GPT-4o

128K tokens≈ 96.000 palabras

Claude 3.5 Sonnet

200K tokens≈ 150.000 palabras

Gemini 1.5 Pro

1M tokens≈ 750.000 palabras

Consecuencias del límite de contexto

Si la conversación o documento supera el límite, el modelo "olvida" las partes más antiguas. Para documentos largos → RAG. Para conversaciones largas → resumir el historial.

Prompt Engineering

Prompt engineering es la práctica de diseñar y estructurar instrucciones (prompts) para obtener el mejor resultado de un LLM sin modificar los pesos del modelo.

Técnicas principales

Zero-shot prompting

Pides la tarea directamente sin ejemplos. Funciona bien para tareas simples.

"Traduce al inglés: El gato duerme."

Few-shot prompting

Proporcionas 2-5 ejemplos de input/output antes de la tarea real. Mejora consistencia en tareas complejas.

"Formal: Buenos días. Informal: Holi. → Formal: Por favor..."

Chain-of-thought (CoT)

Pides al modelo que razone paso a paso antes de dar la respuesta final. Mejora el razonamiento matemático y lógico.

"Piensa paso a paso y luego dame la respuesta."

System prompt

Instrucción de contexto que define el rol, formato de respuesta y restricciones. Se envía antes del historial de conversación.

"Eres un asistente técnico. Responde en español. Sé conciso."

Parámetros de generación

Temperature

0.0 – 2.0

Controla aleatoriedad. 0 = determinístico/repetible; 2 = muy creativo/caótico. Para extracción de datos: temperatura baja. Para creatividad: temperatura alta.

Top-p (nucleus sampling)

0.0 – 1.0

Considera solo los tokens cuya probabilidad acumulada llega a p. 0.9 = considera el 90% más probable. Alternativa a temperature.

Max tokens

número entero

Límite de tokens que el modelo puede generar en la respuesta. Importante para costos y latencia.

Stop sequences

strings

El modelo para de generar cuando encuentra estas secuencias. Útil para formatos estructurados.

Trampa de examen: temperatura

Temperatura 0 ≠ mejor calidad. Significa más determinismo. Para creatividad (brainstorming, escritura) → temperatura alta. Para extracción precisa de datos → temperatura baja o 0.

RAG — Retrieval Augmented Generation

RAG combina un LLM con una base de conocimiento externa. En vez de depender solo del conocimiento del modelo (que puede estar desactualizado), RAG busca documentos relevantes y los incluye en el contexto antes de generar la respuesta.

Cómo funciona RAG

Indexación

Los documentos se dividen en chunks, se convierten en embeddings (vectores numéricos) y se almacenan en una vector database (ej: Azure AI Search).

Query del usuario

La pregunta del usuario también se convierte en un embedding.

Retrieval (búsqueda)

Se buscan los chunks más similares semánticamente a la pregunta usando similitud coseno u otras métricas vectoriales.

Augmentation (enriquecimiento)

Los chunks recuperados se incluyen en el prompt como contexto adicional: "Basándote en estos documentos, responde...".

Generation (generación)

El LLM genera la respuesta fundamentada en los documentos recuperados, no solo en su conocimiento entrenado.

Ventajas de RAG

Respuestas actualizadas sin reentrenar el modelo

Cita fuentes → más verificable

Reduce alucinaciones al anclar respuestas en documentos

Funciona con documentos privados/empresariales

Más económico que fine-tuning para nuevo conocimiento

Cuándo usar RAG

Base de conocimiento interna de la empresa

Documentación técnica que se actualiza frecuentemente

Preguntas sobre datos posteriores al corte de entrenamiento

Reducir costos vs fine-tuning

Cuando la fuente y la cita importan (legal, médico)

Fine-tuning vs Prompting

Dimensión	Fine-tuning	Prompting / RAG
Qué modifica	Los pesos del modelo	Solo el input al modelo
Costo	Alto (GPU, tiempo, datos)	Bajo (solo tokens de API)
Datos necesarios	Miles de ejemplos etiquetados	Pocos o ningún ejemplo
Tiempo de implementación	Días/semanas	Horas
Mejor para	Estilo, formato, tono muy específico	Nuevo conocimiento, personalización
Actualización del conocimiento	Requiere reentrenamiento	Actualiza el índice/documentos

Regla para el examen

Si la pregunta describe necesidad de nuevo conocimiento o datos recientes → RAG. Si describe necesidad de un estilo o comportamiento muy específico (ej: responder siempre con el tono y jerga de la marca) → Fine-tuning. En duda, RAG primero — es más rápido y económico.

Limitaciones y alucinaciones

Alucinación es cuando un LLM genera información incorrecta con total confianza — inventando hechos, citas, personas o datos que no existen. Es la limitación más crítica para despliegues en producción.

Tipos de limitaciones

Alucinaciones

Genera información falsa con aparente confianza. No puede "saber que no sabe".

Knowledge cutoff

No conoce eventos posteriores a su fecha de entrenamiento. RAG mitiga esto.

Context limit

No puede procesar documentos o conversaciones que superen la ventana de contexto.

Razonamiento matemático

Puede fallar en cálculos complejos. Se mitiga con code interpreter o herramientas externas.

Sesgo

Hereda sesgos de los datos de entrenamiento (texto de internet, libros).

No determinismo

Con temperatura > 0, la misma pregunta puede dar respuestas distintas en cada llamada.

Mitigaciones

RAG

Knowledge cutoff, alucinaciones sobre hechos

Temperature = 0

Reducir variabilidad en tareas factuales

Grounding con fuentes

Pedir al modelo que cite sus fuentes

Content filtering

Bloquear respuestas dañinas o inapropiadas

Human-in-the-loop

Revisión humana en decisiones de alto impacto

Verificación externa

Hechos críticos verificados por sistema separado

Modelos multimodales

Los modelos multimodales pueden procesar y generar múltiples tipos de datos — texto, imágenes, audio, video — en una sola arquitectura.

Texto + Imagen (input)

GPT-4o, Claude 3, Gemini — pueden "ver" imágenes y responder preguntas sobre ellas.

Analizar capturas de pantalla, describir gráficas, leer documentos escaneados.

Texto → Imagen (output)

DALL-E 3, Stable Diffusion, Imagen — generan imágenes a partir de descripciones textuales.

Marketing visual, prototipos de diseño, ilustraciones personalizadas.

Texto + Audio

GPT-4o puede transcribir, responder y generar audio. Whisper para transcripción.

Asistentes de voz, transcripción + análisis, podcasts automatizados.

Video

Gemini 1.5 puede analizar video. Sora genera video a partir de texto.

Resúmenes de videos, moderación de contenido, generación de clips.

Trampas frecuentes del examen

❓ ¿La IA Generativa siempre genera información correcta?

No. Los LLMs pueden alucinar — generar información falsa con aparente confianza. Esta es su limitación más conocida. Para reducir alucinaciones: usar RAG (anclar respuestas en documentos), bajar temperatura, pedir citas de fuentes.

❓ ¿RAG modifica los pesos del modelo?

No. RAG no modifica el modelo en absoluto — solo enriquece el prompt con documentos recuperados antes de que el modelo genere. Fine-tuning sí modifica los pesos. RAG ≠ fine-tuning.

❓ ¿Temperatura alta mejora la precisión?

No. Temperatura alta = más creatividad y variabilidad. Para tareas que requieren precisión factual (extracción de datos, respuestas verificables) → temperatura baja o 0. Para creatividad (brainstorming, escritura creativa) → temperatura alta.

❓ ¿Un LLM sabe todo lo que pasó hasta hoy?

No. Los LLMs tienen una fecha de corte de conocimiento (knowledge cutoff) — no conocen eventos posteriores a esa fecha. Solución: RAG con documentos actualizados o búsqueda web integrada.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una empresa legal tiene miles de documentos internos de casos anteriores. Quieren un chatbot que responda preguntas de los abogados con información precisa y citando los documentos fuente. El conocimiento se actualiza con nuevos casos cada semana. ¿Cuál es la mejor arquitectura?

Inicia sesión para llevar tu progreso.

AnteriorIA Conversacional — CLU, QnA y Bot ServiceProcesamiento de lenguaje natural SiguienteAzure OpenAI Service — modelos y desplieguesIA Generativa