AI-901
Deep Dive
Azure ofrece múltiples servicios de visión por computadora, cada uno optimizado para un caso de uso específico. El AI-901 evalúa cuál servicio elegir dado un escenario — conoce las diferencias clave.
Contenido
Azure AI Vision
Image Analysis + Read API + Spatial Analysis
Análisis general de imágenes, OCR de documentos, análisis de personas en espacio físico
Custom Vision
Clasificación personalizada + Detección de objetos personalizada
Cuando necesitas categorías específicas de tu negocio que los modelos generales no reconocen
Face API
Detección, identificación, verificación facial
Sistemas de acceso biométrico, verificación de identidad, análisis de atributos faciales
Document Intelligence
OCR estructurado + Extracción de formularios
Facturas, recibos, contratos, tarjetas de ID — cuando necesitas campos específicos del documento
Video Indexer
Análisis profundo de video
Transcripción de video, identificación de speakers, detección de escenas, OCR en video
Servicio de análisis de imágenes general basado en modelos pre-entrenados de Microsoft. Se usa vía API REST — sin entrenamiento propio.
Descripción automática
Genera texto descriptivo del contenido de una imagen en lenguaje natural.
Detección de objetos
Localiza objetos comunes (personas, autos, animales, muebles) con bounding boxes.
Tagging
Lista de etiquetas descriptivas de la imagen con nivel de confianza.
Categorización
Clasifica la imagen en una jerarquía de 86 categorías predefinidas.
Detección de contenido adulto
Identifica contenido inapropiado, violento o de adultos para moderación.
Color dominante
Extrae los colores principales de la imagen, incluyendo si es a color o escala de grises.
Detección de marcas
Identifica logos de marcas conocidas en imágenes.
Spatial Analysis
Analiza movimiento y presencia de personas en video de cámara en tiempo real. Contar personas, distancia entre ellas.
La Read API (parte de Azure AI Vision) es el servicio OCR más avanzado de Azure. Maneja documentos densos, múltiples idiomas, texto en diversas orientaciones y PDFs de múltiples páginas.
Características clave
Texto manuscrito y mecanografiado
Documentos con layouts complejos (tablas, columnas)
PDFs de múltiples páginas
+170 idiomas soportados
Texto en diferentes orientaciones y rotaciones
Retorna bounding box de cada palabra
Casos de uso ideales
Digitalización masiva de documentos en archivo
Procesamiento automático de facturas y recibos
Extracción de datos de formularios escaneados
Hacer buscables documentos históricos
Capturar texto de fotos de carteles o pizarras
Custom Vision permite entrenar modelos de visión con tus propias imágenes etiquetadas — sin necesidad de código. El portal web guía el proceso completo: subir imágenes, etiquetar, entrenar, evaluar, publicar.
Clasificación de imágenes personalizada
Entrena un modelo que reconoce TUS categorías específicas.
Ejemplo: una empresa farmacéutica quiere clasificar sus 50 tipos de pastillas por apariencia visual. Los modelos generales no conocen esas pastillas específicas.
Mínimo recomendado: 30 imágenes por clase
Detección de objetos personalizada
Detecta y localiza objetos específicos que no están en modelos pre-entrenados.
Ejemplo: detectar y localizar tornillos defectuosos en una línea de manufactura — el modelo general no conoce ese defecto específico.
Requiere etiquetar bounding boxes manualmente
AI Vision vs Custom Vision — cuándo usar cada uno
Azure AI Vision
Cuando las categorías son generales y el modelo pre-entrenado las reconoce. Sin datos ni entrenamiento propios.
Custom Vision
Cuando necesitas categorías específicas de tu dominio que los modelos generales no conocen. Tienes imágenes propias para entrenar.
Detect
Sin identificación de personaDetecta rostros en una imagen. Retorna bounding boxes y atributos opcionales (edad estimada, expresión, accesorios).
Identify
Requiere base de datos de personasCompara un rostro con un grupo de personas registradas (PersonGroup). Retorna quién es con nivel de confianza.
Verify
1 vs 1Compara dos imágenes faciales y dice si son la misma persona. Para verificación 1:1 (¿eres quien dices ser?).
Find Similar
Sin identidades registradasDado un rostro, encuentra los más similares en una lista. No identifica por nombre — solo por similitud visual.
Group
No supervisadoAgrupa rostros no identificados por similitud visual. Útil para organizar colecciones de fotos.
Document Intelligence va más allá del OCR simple: no solo extrae texto, sino que comprende la estructura del documento y extrae campos específicos. Tiene modelos pre-construidos para tipos de documentos comunes y permite modelos personalizados.
🧾
Facturas
Extrae campos: proveedor, importe, fecha, líneas de items, subtotales, impuestos, fecha de vencimiento.
🏪
Recibos
Extrae: nombre del comercio, items comprados, total, impuestos, fecha, método de pago.
🪪
Tarjetas de ID
Extrae: nombre, fecha de nacimiento, número de documento, fecha de expiración, país emisor.
📇
Tarjetas de presentación
Extrae: nombre, empresa, cargo, email, teléfono, dirección.
📋
W-2 / Formularios fiscales
Extrae campos específicos de formularios fiscales de EE.UU.
⚙️
Modelo personalizado
Entrenas con tus propios documentos para extraer campos específicos de formularios propietarios.
Video Indexer combina múltiples modelos de IA para extraer insights completos de contenido de video — no solo analiza un frame, sino el video completo con su contexto temporal.
Transcripción automática de audio a texto (Speech-to-Text)
Identificación de speakers (quién habló cuándo)
Traducción automática de transcripciones
OCR en video (texto que aparece en pantalla)
Detección de escenas y cortes de cámara
Identificación de personas (con base de datos facial)
Extracción de tópicos clave del contenido
Detección de emociones y sentimientos del speaker
Reconocimiento de marcas mencionadas o visibles
Moderación de contenido inapropiado en video
| Escenario | Servicio recomendado |
|---|---|
| Etiquetar automáticamente fotos de un álbum familiar | Azure AI Vision — Image Analysis |
| Contar personas en una sala de reuniones en tiempo real | Azure AI Vision — Spatial Analysis |
| Leer texto de facturas escaneadas de múltiples páginas | Azure AI Vision — Read API |
| Clasificar fotos de productos de tu empresa en 20 categorías propias | Custom Vision — clasificación personalizada |
| Detectar y localizar tornillos defectuosos en línea de manufactura | Custom Vision — detección de objetos |
| Verificar que la foto de un ID bancario es la misma persona que se registra | Face API — Verify |
| Extraer automáticamente importe, proveedor y fecha de facturas | Azure AI Document Intelligence |
| Transcribir y hacer buscable un archivo de 500 videos de capacitación | Video Indexer |
¿Entendiste este tema?
Pon a prueba lo que acabas de aprender
Una empresa de seguros quiere automatizar el procesamiento de reclamaciones. Los clientes envían fotos de sus facturas médicas escaneadas. El sistema debe extraer automáticamente el nombre del proveedor médico, la fecha del servicio y el monto total. ¿Qué servicio Azure es más apropiado?