AI-901

Deep Dive

D3 · Visión por computadora

Azure AI Document Intelligence — Extracción de datos de documentos

Document Intelligence va más allá del OCR básico: extrae campos estructurados de documentos como facturas, recibos e identificaciones. El AI-901 evalúa cuándo usar modelos prebuilt vs personalizados y en qué se diferencia de OCR.

Contenido

¿Qué es Document Intelligence?
Modelos prebuilt
Modelos personalizados
Document Intelligence vs OCR básico
Campos y extracción estructurada
Trampas frecuentes del examen

¿Qué es Document Intelligence?

Azure AI Document Intelligence (antes Form Recognizer) es un servicio que usa modelos de ML para extraer texto, tablas y pares clave-valor de documentos de forma estructurada. No solo convierte imágenes a texto (OCR) — comprende la semántica del documento y extrae campos específicos con sus valores.

🔍

OCR avanzado

Extrae texto de PDFs, imágenes, documentos escaneados — incluso manuscritos y documentos de baja calidad.

🧠

Comprensión semántica

Identifica campos por significado, no solo por posición. "Total" puede estar en distintos lugares según el proveedor.

📊

Extracción de tablas

Detecta y extrae tablas dentro de documentos, devolviendo celdas, filas y columnas estructuradas.

Modelos prebuilt

Los modelos prebuilt están entrenados por Microsoft con millones de documentos reales. Se usan inmediatamente sin datos de entrenamiento propios.

🧾

Invoice

Extrae campos de facturas: proveedor, fecha, número de factura, líneas de pedido, total, impuestos, banco.

Facturas de proveedores, compras corporativas.

🛒

Receipt

Extrae campos de recibos de compra: comercio, fecha, hora, artículos, subtotal, impuesto, total, método de pago.

Gastos de empleados, reembolsos, auditorías.

🪪

Identity Document (ID)

Extrae datos de documentos de identidad: DNI, pasaporte, carnet de conducir. Nombre, apellidos, DOB, número de documento, país.

Onboarding de clientes, verificación KYC.

💼

Business Card

Extrae contactos de tarjetas de visita: nombre, empresa, email, teléfono, dirección, web.

CRM, digitalización de contactos comerciales.

📋

W-2 (US)

Extrae datos del formulario fiscal W-2 de Estados Unidos: empleado, empleador, ingresos, retenciones.

Procesamiento fiscal, nóminas.

📜

Contract

Extrae metadatos de contratos: partes, fechas de inicio/fin, cláusulas de renovación, tipo de contrato.

Gestión de contratos legales, compliance.

🏥

Health Insurance Card

Extrae datos de tarjetas de seguro de salud: asegurado, número de póliza, grupo, plan, fechas.

Procesos médicos, admisiones en hospitales.

📄

General Document

Extrae texto, tablas, figuras y pares clave-valor de documentos genéricos sin formato específico.

Cualquier documento no cubierto por modelos específicos.

Trampa del examen: nombre del servicio

El servicio se llamaba Form Recognizer hasta 2023. Ahora se llama Azure AI Document Intelligence. El examen puede usar cualquiera de los dos nombres. Son el mismo servicio.

Modelos personalizados (Custom)

Cuando ningún modelo prebuilt cubre tu tipo de documento (ej: pedidos de compra internos, reportes técnicos propietarios), puedes entrenar un modelo personalizado con ejemplos de tus documentos etiquetados.

Tipos de modelos custom

Custom Template

Para documentos con estructura fija y predecible. Los campos siempre están en las mismas posiciones relativas.

Formularios internos, documentos con plantilla fija.

Custom Neural

Para documentos con layouts variables. Usa deep learning para entender el contexto semántico, no solo la posición.

Contratos de distintos proveedores, documentos con variaciones de formato.

Composed Model

Combina múltiples modelos custom. El servicio detecta automáticamente qué modelo aplica a cada documento.

Procesar múltiples tipos de documentos con un solo endpoint.

Proceso de entrenamiento custom

Reunir 5+ documentos de ejemplo (recomendado: 50+ para mejor precisión).

Subir a Azure Blob Storage.

Etiquetar campos en Document Intelligence Studio (interfaz web de etiquetado).

Lanzar entrenamiento — minutos en la nube.

Evaluar precisión por campo y re-etiquetar si es necesario.

Llamar a la API con el model ID del modelo entrenado.

Requisito mínimo

5 documentos etiquetados es el mínimo absoluto para entrenamiento. El modelo mejora notablemente con 50+ ejemplos. Para Custom Neural, se recomiendan 500+ para alta precisión.

Document Intelligence vs OCR básico

Capacidad	Document Intelligence	OCR básico (Read API)
Extrae texto	✅ Sí, avanzado	✅ Sí
Comprende campos (ej: "Total = $150")	✅ Sí	❌ No
Extrae tablas estructuradas	✅ Sí (filas y columnas)	⚠️ Parcial (solo texto)
Devuelve JSON estructurado	✅ Sí, campos tipados	❌ Solo texto plano
Modelos específicos por tipo de doc	✅ Invoice, Receipt, ID...	❌ Genérico
Modelos personalizados	✅ Sí	❌ No
Precio	Mayor (por página)	Menor (por llamada)

Regla para el examen

Si el escenario solo necesita leer texto de una imagen o PDF → OCR / Read API.
Si necesita extraer campos específicos (fecha, total, nombre del proveedor) → Document Intelligence.
Clave: "extracción de datos estructurados de documentos" → Document Intelligence.

Extracción estructurada — ¿qué devuelve?

Ejemplo: respuesta del modelo Invoice

// POST /analyze con imagen de factura

{

"documents": [{

"docType": "invoice"

"fields": {

"VendorName": {"value": "Contoso Ltd.", "confidence": 0.99}

"InvoiceDate": {"value": "2024-03-15", "confidence": 0.97}

"InvoiceId": {"value": "INV-2024-001", "confidence": 0.99}

"SubTotal": {"value": {"amount": 1200.00, "currencySymbol": "€"}}

"TotalTax": {"value": {"amount": 252.00}}

"InvoiceTotal": {"value": {"amount": 1452.00}}

}

}]

}

Cada campo incluye el valor extraído, tipo de dato y score de confianza. No es texto plano — es JSON estructurado listo para consumir.

Trampas frecuentes del examen

❓ ¿Document Intelligence puede procesar documentos manuscritos?

Sí. El modelo Read API subyacente maneja tanto texto impreso como manuscrito. Los modelos prebuilt también pueden procesar documentos escaneados a mano, aunque la precisión depende de la legibilidad.

❓ ¿Para procesar facturas se necesita entrenamiento previo?

No. El modelo prebuilt "Invoice" de Document Intelligence ya está entrenado con millones de facturas de múltiples proveedores y países. No necesitas datos de entrenamiento propios para la mayoría de formatos de factura estándar.

❓ ¿Document Intelligence y Azure AI Vision (OCR) hacen lo mismo?

No completamente. OCR (Read API de Azure AI Vision) extrae texto plano de imágenes. Document Intelligence entiende la semántica del documento y extrae campos estructurados con tipos y valores. Para "leer texto" → OCR. Para "extraer el total de una factura" → Document Intelligence.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una aseguradora recibe cientos de formularios de reclamación en PDF cada día. Necesitan extraer automáticamente: número de póliza, fecha del siniestro, nombre del asegurado y monto reclamado para ingresarlos en su sistema. ¿Qué servicio es más adecuado?

Inicia sesión para llevar tu progreso.

AnteriorAzure AI Vision — servicios y casos de usoVisión por computadora SiguienteFundamentos de NLPProcesamiento de lenguaje natural