AI-901

Deep Dive

Practicar ahora
D3 · Visión por computadora

Conceptos de visión por computadora

Visión por computadora permite a las máquinas "ver" e interpretar imágenes y video. El AI-901 evalúa las tareas principales, las diferencias entre ellas y cuándo usar cada servicio Azure.

¿Qué es la visión por computadora?

La visión por computadora es un campo de la IA que permite a los sistemas extraer información significativa de imágenes digitales, videos y otras entradas visuales. Usa deep learning (redes neuronales convolucionales) para aprender a reconocer patrones visuales.

¿Por qué es difícil para una máquina?

  • La misma escena puede verse muy diferente según la iluminación
  • Los objetos pueden estar parcialmente ocluidos o en ángulos inusuales
  • El mismo objeto puede variar enormemente en apariencia (perros)
  • Las imágenes son solo matrices de píxeles — no tienen semántica inherente

¿Cómo lo resuelve el deep learning?

Las redes neuronales convolucionales (CNN) aprenden jerarquías de características automáticamente: bordes → formas → texturas → partes → objetos. Con millones de imágenes etiquetadas, aprenden a "ver" de forma similar a los humanos.

Tareas principales de visión por computadora

Clasificación de imágenes

¿Qué HAY en esta imagen?

Output

Una etiqueta (y su confianza): "perro (94%)"

Ejemplo

Clasificar fotos de productos en un catálogo

Detección de objetos

¿QUÉ hay y DÓNDE está en esta imagen?

Output

Etiquetas + bounding boxes (rectángulos de ubicación)

Ejemplo

Sistema de control de calidad: detectar defectos en productos en cinta transportadora

Segmentación semántica

¿A qué clase pertenece CADA PÍXEL?

Output

Máscara de colores donde cada color = clase (auto, carretera, cielo, peatón)

Ejemplo

Vehículos autónomos que necesitan entender exactamente los límites de cada objeto

OCR (Reconocimiento óptico)

¿Qué TEXTO hay en esta imagen?

Output

Texto extraído con posición y confianza

Ejemplo

Digitalizar facturas escaneadas, leer placas de vehículos

Análisis facial

¿Hay rostros? ¿Quiénes son? ¿Cómo están?

Output

Coordenadas de rostros, identidad (si hay base), emociones, atributos

Ejemplo

Control de acceso biométrico, monitoreo de atención en aulas

Clasificación de imágenes — en profundidad

Clasificación multiclase

Cada imagen pertenece a exactamente UNA clase. El modelo elige la categoría más probable.

"Esta imagen es un gato (87%), perro (9%), conejo (4%)"

Clasificación multi-etiqueta

Una imagen puede tener MÚLTIPLES etiquetas simultáneamente.

"Esta imagen contiene: playa (95%), palmeras (89%), puesta de sol (78%)"

Azure: Clasificación de imágenes

Azure AI Vision — Image Analysis: para categorías generales (animales, vehículos, paisajes).
Custom Vision (clasificación): cuando necesitas categorías específicas de tu negocio (tipo de defecto en manufactura, variedad de planta específica).

Detección de objetos — localizar y clasificar

La detección de objetos va más allá de clasificar — localiza cada objeto con un bounding box (caja delimitadora con coordenadas x, y, ancho, alto) y le asigna una clase.

🏭

Control de calidad

Detectar y localizar defectos en productos en una línea de producción. El sistema marca exactamente dónde está el defecto.

🛒

Retail analytics

Contar productos en estantes, detectar cuándo hay stock bajo, analizar disposición del inventario en tienda.

📷

Seguridad y vigilancia

Detectar personas, vehículos u objetos específicos en cámaras de seguridad. Alertar cuando se detecta algo en zona restringida.

Clasificación vs Detección — trampa frecuente

Clasificación: "Hay un perro en la imagen." Detección: "Hay un perro en las coordenadas [120, 80, 300, 250] y un gato en [400, 90, 550, 280]." Si el examen pregunta por localizar objetos, es detección.

Segmentación — clasificar píxel a píxel

Segmentación semántica

Asigna una clase a CADA PÍXEL. Todos los píxeles del mismo objeto-tipo reciben el mismo color/clase, sin distinguir instancias individuales.

Todos los autos = azul. Toda la carretera = gris. Todo el cielo = celeste. (Sin importar cuántos autos hay)

Segmentación de instancias

Igual que semántica + distingue instancias individuales del mismo tipo.

Auto 1 = azul claro. Auto 2 = azul oscuro. Auto 3 = azul medio. (Cada auto tiene su propia máscara)

Casos de uso reales

Vehículos autónomos — entender exactamente los límites de carretera y obstáculos

Imagen médica — segmentar tumor de tejido sano

Edición fotográfica — separar sujeto del fondo automáticamente

Agricultura — identificar áreas de cultivo afectadas en imágenes satelitales

OCR — Reconocimiento óptico de caracteres

OCR extrae texto de imágenes y documentos escaneados. Convierte contenido visual (foto de una factura, documento impreso, cartel) en texto digital procesable por computadora.

Casos de uso

Digitalizar facturas y recibos para contabilidad automática

Leer placas de vehículos en estacionamientos o autopistas de peaje

Procesar formularios físicos (solicitudes, contratos)

Hacer búsquedos en documentos escaneados

Extraer datos de tarjetas de presentación

En Azure

Azure AI Vision — Read API (OCR)

Para imágenes y PDFs. Extrae texto con su posición, idioma detectado y confianza. Optimizado para documentos densos.

Azure AI Document Intelligence

OCR + comprensión de formularios. Extrae campos específicos de facturas, recibos, tarjetas de ID. Entiende la ESTRUCTURA del documento.

Visión facial — detección vs reconocimiento

Distinción crítica del AI-901

Esta diferencia aparece en el examen con frecuencia. Memorizarla es obligatorio.

Detección facial

Identifica la presencia y ubicación de rostros. Responde: "¿Hay rostros? ¿Dónde?"

Output: coordenadas del bounding box de cada rostro detectado.

No sabe quién es

  • Contar personas en una foto
  • Verificar que hay un rostro antes de procesar
  • Detectar si alguien mira a la cámara

Reconocimiento facial

Identifica quién es una persona comparando con una base de personas conocidas. Responde: "¿Quién es?"

Output: identidad de la persona (con score de confianza).

Sabe quién es

  • Control de acceso a oficinas
  • Verificación de identidad en banca
  • Marcar asistencia automáticamente

Otras capacidades del Face API de Azure

Verificación

¿Esta foto y esta otra foto son la misma persona?

Agrupación

Agrupar fotos de personas no identificadas por similitud

Atributos

Edad estimada, expresión, orientación de la cabeza, lentes

Cómo funcionan las CNNs (Redes Neuronales Convolucionales)

El AI-901 no requiere saber matemáticas de CNNs, pero sí el concepto de cómo aprenden.

🔍

Capas convolucionales

Aplican filtros que detectan patrones locales: primero bordes y esquinas, luego texturas, luego formas simples, luego estructuras complejas.

📦

Pooling

Reducen el tamaño espacial conservando las características más importantes. Hacen el modelo más eficiente y con cierta invarianza a traslaciones.

🧠

Capas completamente conectadas

Al final de la red, combinan todas las características aprendidas para hacer la predicción final (clasificación).

♻️

Transfer Learning

En vez de entrenar desde cero (costoso), se usa una CNN pre-entrenada en millones de imágenes (ResNet, VGG) y se ajusta para la tarea específica con pocos datos.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Un supermercado quiere un sistema que detecte automáticamente cuando un producto está mal colocado en el estante, identificando exactamente qué producto está fuera de lugar y en qué posición de la imagen. ¿Qué tarea de visión por computadora es más apropiada?