AI-901
Deep Dive
Document Intelligence va más allá del OCR básico: extrae campos estructurados de documentos como facturas, recibos e identificaciones. El AI-901 evalúa cuándo usar modelos prebuilt vs personalizados y en qué se diferencia de OCR.
Contenido
Azure AI Document Intelligence (antes Form Recognizer) es un servicio que usa modelos de ML para extraer texto, tablas y pares clave-valor de documentos de forma estructurada. No solo convierte imágenes a texto (OCR) — comprende la semántica del documento y extrae campos específicos con sus valores.
🔍
OCR avanzado
Extrae texto de PDFs, imágenes, documentos escaneados — incluso manuscritos y documentos de baja calidad.
🧠
Comprensión semántica
Identifica campos por significado, no solo por posición. "Total" puede estar en distintos lugares según el proveedor.
📊
Extracción de tablas
Detecta y extrae tablas dentro de documentos, devolviendo celdas, filas y columnas estructuradas.
Los modelos prebuilt están entrenados por Microsoft con millones de documentos reales. Se usan inmediatamente sin datos de entrenamiento propios.
Invoice
Extrae campos de facturas: proveedor, fecha, número de factura, líneas de pedido, total, impuestos, banco.
Facturas de proveedores, compras corporativas.
Receipt
Extrae campos de recibos de compra: comercio, fecha, hora, artículos, subtotal, impuesto, total, método de pago.
Gastos de empleados, reembolsos, auditorías.
Identity Document (ID)
Extrae datos de documentos de identidad: DNI, pasaporte, carnet de conducir. Nombre, apellidos, DOB, número de documento, país.
Onboarding de clientes, verificación KYC.
Business Card
Extrae contactos de tarjetas de visita: nombre, empresa, email, teléfono, dirección, web.
CRM, digitalización de contactos comerciales.
W-2 (US)
Extrae datos del formulario fiscal W-2 de Estados Unidos: empleado, empleador, ingresos, retenciones.
Procesamiento fiscal, nóminas.
Contract
Extrae metadatos de contratos: partes, fechas de inicio/fin, cláusulas de renovación, tipo de contrato.
Gestión de contratos legales, compliance.
Health Insurance Card
Extrae datos de tarjetas de seguro de salud: asegurado, número de póliza, grupo, plan, fechas.
Procesos médicos, admisiones en hospitales.
General Document
Extrae texto, tablas, figuras y pares clave-valor de documentos genéricos sin formato específico.
Cualquier documento no cubierto por modelos específicos.
Trampa del examen: nombre del servicio
El servicio se llamaba Form Recognizer hasta 2023. Ahora se llama Azure AI Document Intelligence. El examen puede usar cualquiera de los dos nombres. Son el mismo servicio.
Cuando ningún modelo prebuilt cubre tu tipo de documento (ej: pedidos de compra internos, reportes técnicos propietarios), puedes entrenar un modelo personalizado con ejemplos de tus documentos etiquetados.
Custom Template
Para documentos con estructura fija y predecible. Los campos siempre están en las mismas posiciones relativas.
Formularios internos, documentos con plantilla fija.
Custom Neural
Para documentos con layouts variables. Usa deep learning para entender el contexto semántico, no solo la posición.
Contratos de distintos proveedores, documentos con variaciones de formato.
Composed Model
Combina múltiples modelos custom. El servicio detecta automáticamente qué modelo aplica a cada documento.
Procesar múltiples tipos de documentos con un solo endpoint.
Reunir 5+ documentos de ejemplo (recomendado: 50+ para mejor precisión).
Subir a Azure Blob Storage.
Etiquetar campos en Document Intelligence Studio (interfaz web de etiquetado).
Lanzar entrenamiento — minutos en la nube.
Evaluar precisión por campo y re-etiquetar si es necesario.
Llamar a la API con el model ID del modelo entrenado.
Requisito mínimo
5 documentos etiquetados es el mínimo absoluto para entrenamiento. El modelo mejora notablemente con 50+ ejemplos. Para Custom Neural, se recomiendan 500+ para alta precisión.
| Capacidad | Document Intelligence | OCR básico (Read API) |
|---|---|---|
| Extrae texto | ✅ Sí, avanzado | ✅ Sí |
| Comprende campos (ej: "Total = $150") | ✅ Sí | ❌ No |
| Extrae tablas estructuradas | ✅ Sí (filas y columnas) | ⚠️ Parcial (solo texto) |
| Devuelve JSON estructurado | ✅ Sí, campos tipados | ❌ Solo texto plano |
| Modelos específicos por tipo de doc | ✅ Invoice, Receipt, ID... | ❌ Genérico |
| Modelos personalizados | ✅ Sí | ❌ No |
| Precio | Mayor (por página) | Menor (por llamada) |
Regla para el examen
Si el escenario solo necesita leer texto de una imagen o PDF → OCR / Read API.
Si necesita extraer campos específicos (fecha, total, nombre del proveedor) → Document Intelligence.
Clave: "extracción de datos estructurados de documentos" → Document Intelligence.
Ejemplo: respuesta del modelo Invoice
// POST /analyze con imagen de factura
{
"documents": [{
"docType": "invoice"
"fields": {
"VendorName": {"value": "Contoso Ltd.", "confidence": 0.99}
"InvoiceDate": {"value": "2024-03-15", "confidence": 0.97}
"InvoiceId": {"value": "INV-2024-001", "confidence": 0.99}
"SubTotal": {"value": {"amount": 1200.00, "currencySymbol": "€"}}
"TotalTax": {"value": {"amount": 252.00}}
"InvoiceTotal": {"value": {"amount": 1452.00}}
}
}]
}
Cada campo incluye el valor extraído, tipo de dato y score de confianza. No es texto plano — es JSON estructurado listo para consumir.
❓ ¿Document Intelligence puede procesar documentos manuscritos?
Sí. El modelo Read API subyacente maneja tanto texto impreso como manuscrito. Los modelos prebuilt también pueden procesar documentos escaneados a mano, aunque la precisión depende de la legibilidad.
❓ ¿Para procesar facturas se necesita entrenamiento previo?
No. El modelo prebuilt "Invoice" de Document Intelligence ya está entrenado con millones de facturas de múltiples proveedores y países. No necesitas datos de entrenamiento propios para la mayoría de formatos de factura estándar.
❓ ¿Document Intelligence y Azure AI Vision (OCR) hacen lo mismo?
No completamente. OCR (Read API de Azure AI Vision) extrae texto plano de imágenes. Document Intelligence entiende la semántica del documento y extrae campos estructurados con tipos y valores. Para "leer texto" → OCR. Para "extraer el total de una factura" → Document Intelligence.
¿Entendiste este tema?
Pon a prueba lo que acabas de aprender
Una aseguradora recibe cientos de formularios de reclamación en PDF cada día. Necesitan extraer automáticamente: número de póliza, fecha del siniestro, nombre del asegurado y monto reclamado para ingresarlos en su sistema. ¿Qué servicio es más adecuado?