AI-901

Deep Dive

D3 · Visión por computadora

Azure AI Vision — servicios y casos de uso

Azure ofrece múltiples servicios de visión por computadora, cada uno optimizado para un caso de uso específico. El AI-901 evalúa cuál servicio elegir dado un escenario — conoce las diferencias clave.

Contenido

Mapa de servicios Azure de visión
Azure AI Vision — Image Analysis
Read API — OCR avanzado
Azure AI Vision Custom Model
Face API — análisis facial
Document Intelligence
Video Indexer
Cuándo usar cada servicio

Mapa de servicios Azure de visión

Azure AI Vision

Image Analysis + Read API + Spatial Analysis

Análisis general de imágenes, OCR de documentos, análisis de personas en espacio físico

Azure AI Vision Custom Model

Clasificación personalizada + Detección de objetos personalizada

Cuando necesitas categorías específicas de tu negocio que los modelos generales no reconocen

Face API

Detección, identificación, verificación facial

Sistemas de acceso biométrico, verificación de identidad, análisis de atributos faciales

Document Intelligence

OCR estructurado + Extracción de formularios

Facturas, recibos, contratos, tarjetas de ID — cuando necesitas campos específicos del documento

Video Indexer

Análisis profundo de video

Transcripción de video, identificación de speakers, detección de escenas, OCR en video

Azure AI Vision — Image Analysis

Servicio de análisis de imágenes general basado en modelos pre-entrenados de Microsoft. Se usa vía API REST — sin entrenamiento propio.

Descripción automática

Genera texto descriptivo del contenido de una imagen en lenguaje natural.

Detección de objetos

Localiza objetos comunes (personas, autos, animales, muebles) con bounding boxes.

Tagging

Lista de etiquetas descriptivas de la imagen con nivel de confianza.

Categorización

Clasifica la imagen en una jerarquía de 86 categorías predefinidas.

Detección de contenido adulto

Identifica contenido inapropiado, violento o de adultos para moderación.

Color dominante

Extrae los colores principales de la imagen, incluyendo si es a color o escala de grises.

Detección de marcas

Identifica logos de marcas conocidas en imágenes.

Spatial Analysis

Analiza movimiento y presencia de personas en video de cámara en tiempo real. Contar personas, distancia entre ellas.

Read API — OCR avanzado

La Read API (parte de Azure AI Vision) es el servicio OCR más avanzado de Azure. Maneja documentos densos, múltiples idiomas, texto en diversas orientaciones y PDFs de múltiples páginas.

Características clave

Texto manuscrito y mecanografiado

Documentos con layouts complejos (tablas, columnas)

PDFs de múltiples páginas

+170 idiomas soportados

Texto en diferentes orientaciones y rotaciones

Retorna bounding box de cada palabra

Casos de uso ideales

Digitalización masiva de documentos en archivo

Procesamiento automático de facturas y recibos

Extracción de datos de formularios escaneados

Hacer buscables documentos históricos

Capturar texto de fotos de carteles o pizarras

Azure AI Vision Custom Model — modelos visuales personalizados

Azure AI Vision Custom Model es la capacidad de entrenamiento de modelos personalizados integrada dentro de Azure AI Vision (antes un servicio independiente llamado "Custom Vision"). Permite entrenar modelos de clasificación y detección de objetos con tus propias imágenes etiquetadas, sin código. Este es el objetivo evaluado en AI-901.

Clasificación de imágenes personalizada

Entrena un modelo que reconoce TUS categorías específicas.

Ejemplo: una empresa farmacéutica quiere clasificar sus 50 tipos de pastillas por apariencia visual. Los modelos generales no conocen esas pastillas específicas.

Mínimo recomendado: 30 imágenes por clase

Detección de objetos personalizada

Detecta y localiza objetos específicos que no están en modelos pre-entrenados.

Ejemplo: detectar y localizar tornillos defectuosos en una línea de manufactura — el modelo general no conoce ese defecto específico.

Requiere etiquetar bounding boxes manualmente

Azure AI Vision vs Custom Model — cuándo usar cada uno

Azure AI Vision (modelo pre-entrenado)

Cuando las categorías son generales y el modelo pre-entrenado las reconoce. Sin datos ni entrenamiento propios.

Azure AI Vision Custom Model

Cuando necesitas categorías específicas de tu dominio que los modelos generales no conocen. Tienes imágenes propias para entrenar.

Face API — análisis facial completo

Detect

Sin identificación de persona

Detecta rostros en una imagen. Retorna bounding boxes y atributos opcionales (edad estimada, expresión, accesorios).

Identify

Requiere base de datos de personas

Compara un rostro con un grupo de personas registradas (PersonGroup). Retorna quién es con nivel de confianza.

Verify

1 vs 1

Compara dos imágenes faciales y dice si son la misma persona. Para verificación 1:1 (¿eres quien dices ser?).

Find Similar

Sin identidades registradas

Dado un rostro, encuentra los más similares en una lista. No identifica por nombre — solo por similitud visual.

Group

No supervisado

Agrupa rostros no identificados por similitud visual. Útil para organizar colecciones de fotos.

Azure AI Document Intelligence

Document Intelligence va más allá del OCR simple: no solo extrae texto, sino que comprende la estructura del documento y extrae campos específicos. Tiene modelos pre-construidos para tipos de documentos comunes y permite modelos personalizados.

🧾

Facturas

Extrae campos: proveedor, importe, fecha, líneas de items, subtotales, impuestos, fecha de vencimiento.

🏪

Recibos

Extrae: nombre del comercio, items comprados, total, impuestos, fecha, método de pago.

🪪

Tarjetas de ID

Extrae: nombre, fecha de nacimiento, número de documento, fecha de expiración, país emisor.

📇

Tarjetas de presentación

Extrae: nombre, empresa, cargo, email, teléfono, dirección.

📋

W-2 / Formularios fiscales

Extrae campos específicos de formularios fiscales de EE.UU.

⚙️

Modelo personalizado

Entrenas con tus propios documentos para extraer campos específicos de formularios propietarios.

Video Indexer — análisis profundo de video

Video Indexer combina múltiples modelos de IA para extraer insights completos de contenido de video — no solo analiza un frame, sino el video completo con su contexto temporal.

Transcripción automática de audio a texto (Speech-to-Text)

Identificación de speakers (quién habló cuándo)

Traducción automática de transcripciones

OCR en video (texto que aparece en pantalla)

Detección de escenas y cortes de cámara

Identificación de personas (con base de datos facial)

Extracción de tópicos clave del contenido

Detección de emociones y sentimientos del speaker

Reconocimiento de marcas mencionadas o visibles

Moderación de contenido inapropiado en video

Cuándo usar cada servicio — tabla de decisión

Escenario	Servicio recomendado
Etiquetar automáticamente fotos de un álbum familiar	Azure AI Vision — Image Analysis
Contar personas en una sala de reuniones en tiempo real	Azure AI Vision — Spatial Analysis
Leer texto de facturas escaneadas de múltiples páginas	Azure AI Vision — Read API
Clasificar fotos de productos de tu empresa en 20 categorías propias	Azure AI Vision Custom Model — clasificación personalizada
Detectar y localizar tornillos defectuosos en línea de manufactura	Azure AI Vision Custom Model — detección de objetos
Verificar que la foto de un ID bancario es la misma persona que se registra	Face API — Verify
Extraer automáticamente importe, proveedor y fecha de facturas	Azure AI Document Intelligence
Transcribir y hacer buscable un archivo de 500 videos de capacitación	Video Indexer

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una empresa de seguros quiere automatizar el procesamiento de reclamaciones. Los clientes envían fotos de sus facturas médicas escaneadas. El sistema debe extraer automáticamente el nombre del proveedor médico, la fecha del servicio y el monto total. ¿Qué servicio Azure es más apropiado?

Inicia sesión para llevar tu progreso.

AnteriorConceptos de visión por computadoraVisión por computadora SiguienteDocument Intelligence — extracción de documentosVisión por computadora