AI-901
Deep Dive
Visión por computadora permite a las máquinas "ver" e interpretar imágenes y video. El AI-901 evalúa las tareas principales, las diferencias entre ellas y cuándo usar cada servicio Azure.
Contenido
La visión por computadora es un campo de la IA que permite a los sistemas extraer información significativa de imágenes digitales, videos y otras entradas visuales. Usa deep learning (redes neuronales convolucionales) para aprender a reconocer patrones visuales.
¿Por qué es difícil para una máquina?
¿Cómo lo resuelve el deep learning?
Las redes neuronales convolucionales (CNN) aprenden jerarquías de características automáticamente: bordes → formas → texturas → partes → objetos. Con millones de imágenes etiquetadas, aprenden a "ver" de forma similar a los humanos.
Clasificación de imágenes
¿Qué HAY en esta imagen?Output
Una etiqueta (y su confianza): "perro (94%)"
Ejemplo
Clasificar fotos de productos en un catálogo
Detección de objetos
¿QUÉ hay y DÓNDE está en esta imagen?Output
Etiquetas + bounding boxes (rectángulos de ubicación)
Ejemplo
Sistema de control de calidad: detectar defectos en productos en cinta transportadora
Segmentación semántica
¿A qué clase pertenece CADA PÍXEL?Output
Máscara de colores donde cada color = clase (auto, carretera, cielo, peatón)
Ejemplo
Vehículos autónomos que necesitan entender exactamente los límites de cada objeto
OCR (Reconocimiento óptico)
¿Qué TEXTO hay en esta imagen?Output
Texto extraído con posición y confianza
Ejemplo
Digitalizar facturas escaneadas, leer placas de vehículos
Análisis facial
¿Hay rostros? ¿Quiénes son? ¿Cómo están?Output
Coordenadas de rostros, identidad (si hay base), emociones, atributos
Ejemplo
Control de acceso biométrico, monitoreo de atención en aulas
Clasificación multiclase
Cada imagen pertenece a exactamente UNA clase. El modelo elige la categoría más probable.
"Esta imagen es un gato (87%), perro (9%), conejo (4%)"
Clasificación multi-etiqueta
Una imagen puede tener MÚLTIPLES etiquetas simultáneamente.
"Esta imagen contiene: playa (95%), palmeras (89%), puesta de sol (78%)"
Azure: Clasificación de imágenes
Azure AI Vision — Image Analysis: para categorías generales (animales, vehículos, paisajes).
Custom Vision (clasificación): cuando necesitas categorías específicas de tu negocio (tipo de defecto en manufactura, variedad de planta específica).
La detección de objetos va más allá de clasificar — localiza cada objeto con un bounding box (caja delimitadora con coordenadas x, y, ancho, alto) y le asigna una clase.
🏭
Control de calidad
Detectar y localizar defectos en productos en una línea de producción. El sistema marca exactamente dónde está el defecto.
🛒
Retail analytics
Contar productos en estantes, detectar cuándo hay stock bajo, analizar disposición del inventario en tienda.
📷
Seguridad y vigilancia
Detectar personas, vehículos u objetos específicos en cámaras de seguridad. Alertar cuando se detecta algo en zona restringida.
Clasificación vs Detección — trampa frecuente
Clasificación: "Hay un perro en la imagen." Detección: "Hay un perro en las coordenadas [120, 80, 300, 250] y un gato en [400, 90, 550, 280]." Si el examen pregunta por localizar objetos, es detección.
Segmentación semántica
Asigna una clase a CADA PÍXEL. Todos los píxeles del mismo objeto-tipo reciben el mismo color/clase, sin distinguir instancias individuales.
Todos los autos = azul. Toda la carretera = gris. Todo el cielo = celeste. (Sin importar cuántos autos hay)
Segmentación de instancias
Igual que semántica + distingue instancias individuales del mismo tipo.
Auto 1 = azul claro. Auto 2 = azul oscuro. Auto 3 = azul medio. (Cada auto tiene su propia máscara)
Casos de uso reales
Vehículos autónomos — entender exactamente los límites de carretera y obstáculos
Imagen médica — segmentar tumor de tejido sano
Edición fotográfica — separar sujeto del fondo automáticamente
Agricultura — identificar áreas de cultivo afectadas en imágenes satelitales
OCR extrae texto de imágenes y documentos escaneados. Convierte contenido visual (foto de una factura, documento impreso, cartel) en texto digital procesable por computadora.
Casos de uso
Digitalizar facturas y recibos para contabilidad automática
Leer placas de vehículos en estacionamientos o autopistas de peaje
Procesar formularios físicos (solicitudes, contratos)
Hacer búsquedos en documentos escaneados
Extraer datos de tarjetas de presentación
En Azure
Azure AI Vision — Read API (OCR)
Para imágenes y PDFs. Extrae texto con su posición, idioma detectado y confianza. Optimizado para documentos densos.
Azure AI Document Intelligence
OCR + comprensión de formularios. Extrae campos específicos de facturas, recibos, tarjetas de ID. Entiende la ESTRUCTURA del documento.
Distinción crítica del AI-901
Esta diferencia aparece en el examen con frecuencia. Memorizarla es obligatorio.
Detección facial
Identifica la presencia y ubicación de rostros. Responde: "¿Hay rostros? ¿Dónde?"
Output: coordenadas del bounding box de cada rostro detectado.
No sabe quién es
Reconocimiento facial
Identifica quién es una persona comparando con una base de personas conocidas. Responde: "¿Quién es?"
Output: identidad de la persona (con score de confianza).
Sabe quién es
Otras capacidades del Face API de Azure
Verificación
¿Esta foto y esta otra foto son la misma persona?
Agrupación
Agrupar fotos de personas no identificadas por similitud
Atributos
Edad estimada, expresión, orientación de la cabeza, lentes
El AI-901 no requiere saber matemáticas de CNNs, pero sí el concepto de cómo aprenden.
Capas convolucionales
Aplican filtros que detectan patrones locales: primero bordes y esquinas, luego texturas, luego formas simples, luego estructuras complejas.
Pooling
Reducen el tamaño espacial conservando las características más importantes. Hacen el modelo más eficiente y con cierta invarianza a traslaciones.
Capas completamente conectadas
Al final de la red, combinan todas las características aprendidas para hacer la predicción final (clasificación).
Transfer Learning
En vez de entrenar desde cero (costoso), se usa una CNN pre-entrenada en millones de imágenes (ResNet, VGG) y se ajusta para la tarea específica con pocos datos.
¿Entendiste este tema?
Pon a prueba lo que acabas de aprender
Un supermercado quiere un sistema que detecte automáticamente cuando un producto está mal colocado en el estante, identificando exactamente qué producto está fuera de lugar y en qué posición de la imagen. ¿Qué tarea de visión por computadora es más apropiada?