AI-901

Deep Dive

D3 · Visión por computadora

Custom Vision — Entrena tu propio modelo de visión

⚠ Nota de actualización del examen AI-901

Custom Vision como servicio independiente ya no aparece como objetivo evaluado en el examen AI-901. Las capacidades de visión personalizada se abordan ahora bajo Azure AI Vision (Custom Model). El contenido de esta sección es útil para entender los conceptos de clasificación y detección de objetos, pero en el examen el foco es Azure AI Vision, no el portal de Custom Vision.

Custom Vision permite entrenar modelos de clasificación de imágenes y detección de objetos con tus propias imágenes y etiquetas, sin experiencia en deep learning. Los conceptos de clasificación vs detección siguen siendo relevantes para entender Azure AI Vision Custom Model.

Contenido

¿Qué es Custom Vision?
Clasificación de imágenes
Detección de objetos
Proceso de entrenamiento
Iteraciones y publicación
Custom Vision vs Azure AI Vision
Trampas frecuentes del examen

¿Qué es Custom Vision?

Custom Vision es un servicio de Azure AI que permite entrenar modelos de visión por computadora personalizados para categorías específicas que los modelos prebuilt no conocen — como identificar defectos en piezas industriales, reconocer especies de plantas o distinguir tus productos de los de la competencia.

🖱️

Sin código de ML

El entrenamiento ocurre en la nube con una interfaz web o API. No necesitas escribir código de deep learning.

🖼️

Pocas imágenes

Puedes empezar con tan solo 15-20 imágenes por categoría gracias a transfer learning desde modelos preentrenados.

📱

Exportable

Modelos exportables a TensorFlow, ONNX, CoreML, TensorFlow Lite para inferencia local (edge/mobile).

Clasificación de imágenes

La clasificación asigna una o más etiquetas a la imagen completa. No localiza dónde está el objeto — solo determina qué hay en la imagen.

Multiclass (una etiqueta)

Cada imagen recibe exactamente una etiqueta. Se usa cuando las categorías son mutuamente excluyentes.

// Ejemplo: control de calidad

imagen_001.jpg → "Aprobado"

imagen_002.jpg → "Defectuoso"

imagen_003.jpg → "Requiere revisión"

Clasificación de enfermedades en radiografías

Identificación de especie de planta

Control de calidad industrial (OK/NOK)

Clasificación de residuos para reciclaje

Multilabel (varias etiquetas)

Cada imagen puede tener múltiples etiquetas simultáneamente. Se usa cuando los atributos son independientes.

// Ejemplo: atributos de producto

imagen_001.jpg → ["azul", "talla_M", "verano"]

imagen_002.jpg → ["rojo", "talla_L"]

Atributos de ropa (color, talla, estación)

Condiciones meteorológicas en una imagen (sol, nubes, lluvia)

Etiquetas de contenido en fotografías

Detección de objetos

La detección de objetos localiza y clasifica múltiples objetos dentro de una imagen, devolviendo coordenadas de bounding boxes y etiquetas para cada objeto encontrado.

Qué devuelve la detección

// Respuesta de detección

{

"predictions": [

{

"tagName": "tornillo"

"probability": 0.98

"boundingBox": {

"left": 0.2, "top": 0.3

"width": 0.1, "height": 0.15

}

]

}

Casos de uso de detección

Inventario visual

Detectar y contar productos en estanterías de supermercado.

Seguridad industrial

Detectar EPP (casco, chaleco) en imágenes de cámaras.

Inspección de línea de ensamblaje

Localizar y clasificar defectos en productos.

Análisis de tráfico

Contar y clasificar vehículos en imágenes aéreas.

Clasificación vs Detección — trampa clave

Clasificación: "¿Qué hay en esta imagen?" → etiqueta para toda la imagen.
Detección: "¿Dónde está cada objeto y qué es?" → etiqueta + bounding box por cada objeto.
Si el enunciado dice "localizar", "coordenadas" o "múltiples objetos" → detección.

Proceso de entrenamiento en Custom Vision

Crear proyecto

En customvision.ai o API. Elegir tipo: Clasificación (multiclass/multilabel) o Detección de objetos. Elegir dominio (General, Retail, Food, Landmarks, etc.).

Subir imágenes

Mínimo 15 imágenes por etiqueta para clasificación; 15 imágenes con al menos 1 objeto etiquetado para detección. Más imágenes = mejor precisión.

Etiquetar imágenes

Clasificación: asignar etiquetas a imágenes completas. Detección: dibujar bounding boxes alrededor de cada objeto y asignar etiqueta.

Entrenar

Clic en "Train". Custom Vision usa transfer learning sobre modelos preentrenados — proceso rápido (minutos). Genera una iteración numerada.

Evaluar métricas

Precision, Recall y AP (Average Precision) por etiqueta. La UI muestra una matriz de confusión y permite ajustar el umbral de probabilidad.

Publicar iteración

Publicar la iteración lista hace disponible la Prediction API. Puedes tener múltiples iteraciones y cambiar cuál está publicada.

Dominios de Custom Vision

Al crear el proyecto, seleccionas un dominio que preoptimiza el modelo base para tu tipo de imágenes:

GeneralGeneral (compact)RetailFoodLandmarksLogoProducts on shelvesUnbalanced

Los dominios compact generan modelos más pequeños exportables para inferencia en edge/mobile.

Iteraciones y publicación

¿Qué es una iteración?

Cada vez que entrenas el modelo se crea una nueva iteración numerada (Iteration 1, 2, 3...). Cada iteración es un snapshot independiente del modelo en ese punto.

Flujo típico de iteraciones

1. Entrenas con las primeras 30 imágenes → Iteration 1

2. Publicas Iteration 1 → disponible en Prediction API

3. Añades 50 imágenes más y re-entrenas → Iteration 2

4. Iteration 2 tiene mejores métricas → publicas Iteration 2

5. Iteration 1 queda disponible como fallback

APIs del servicio

Training API

Gestiona proyectos, sube imágenes, etiqueta, entrena y evalúa modelos.

Prediction API

Envía imágenes y recibe predicciones del modelo publicado. Producción.

Métricas de evaluación

Precision: de las predicciones positivas, ¿cuántas fueron correctas?

Recall: de todos los positivos reales, ¿cuántos encontró el modelo?

AP: Average Precision — área bajo la curva precision-recall.

Probability threshold: ajustar el umbral cambia el balance precision/recall.

Custom Vision vs Azure AI Vision (prebuilt)

Dimensión	Custom Vision	Azure AI Vision (prebuilt)
Entrenamiento	Tus imágenes + etiquetas	No necesitas entrenar
Categorías	Las que tú definas	Las que Microsoft pre-entrenó
Configuración	Proyecto, imágenes, etiquetas, training	Solo API key + endpoint
Dominio específico	Ideal (tus propias clases)	No (clases genéricas)
Tiempo hasta producción	Horas/días (necesita datos)	Minutos
Costo	Entrenamiento + predicción	Solo predicción
Precisión en tu dominio	Alta (si tienes buenos datos)	Variable (depende del dominio)

Regla para el examen

Si el escenario menciona clases genéricas (personas, objetos cotidianos, texto, marcas conocidas) → Azure AI Vision prebuilt.
Si menciona categorías específicas de negocio (tus productos, defectos industriales, razas específicas) → Custom Vision.

Trampas frecuentes del examen

❓ ¿Custom Vision puede detectar objetos sin etiquetas de bounding box?

No para detección de objetos. Para detección necesitas etiquetar bounding boxes en las imágenes de entrenamiento. Para clasificación (imagen completa), no necesitas bounding boxes — solo asignas etiquetas a la imagen entera.

❓ ¿Con 5 imágenes de entrenamiento es suficiente para Custom Vision?

No. El mínimo recomendado es 15-20 imágenes por categoría para obtener resultados útiles. Con menos imágenes el modelo tendrá muy baja generalización. Para producción se recomiendan 50+ imágenes por clase.

❓ ¿Custom Vision y Azure AI Vision son el mismo servicio?

No. Azure AI Vision (Image Analysis) usa modelos pre-entrenados por Microsoft sin necesidad de datos propios. Custom Vision te permite entrenar con tus propias imágenes y categorías. Son servicios distintos con propósitos distintos, aunque ambos están bajo el paraguas de Azure AI.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una empresa farmacéutica necesita identificar automáticamente si las cápsulas en su línea de producción tienen el color correcto (rojo, azul o amarillo) y si están deformadas. Tienen 200 imágenes etiquetadas de cápsulas correctas e incorrectas. ¿Qué servicio es más adecuado?