AI-901
Deep Dive
⚠ Nota de actualización del examen AI-901
Custom Vision como servicio independiente ya no aparece como objetivo evaluado en el examen AI-901. Las capacidades de visión personalizada se abordan ahora bajo Azure AI Vision (Custom Model). El contenido de esta sección es útil para entender los conceptos de clasificación y detección de objetos, pero en el examen el foco es Azure AI Vision, no el portal de Custom Vision.
Custom Vision permite entrenar modelos de clasificación de imágenes y detección de objetos con tus propias imágenes y etiquetas, sin experiencia en deep learning. Los conceptos de clasificación vs detección siguen siendo relevantes para entender Azure AI Vision Custom Model.
Contenido
Custom Vision es un servicio de Azure AI que permite entrenar modelos de visión por computadora personalizados para categorías específicas que los modelos prebuilt no conocen — como identificar defectos en piezas industriales, reconocer especies de plantas o distinguir tus productos de los de la competencia.
🖱️
Sin código de ML
El entrenamiento ocurre en la nube con una interfaz web o API. No necesitas escribir código de deep learning.
🖼️
Pocas imágenes
Puedes empezar con tan solo 15-20 imágenes por categoría gracias a transfer learning desde modelos preentrenados.
📱
Exportable
Modelos exportables a TensorFlow, ONNX, CoreML, TensorFlow Lite para inferencia local (edge/mobile).
La clasificación asigna una o más etiquetas a la imagen completa. No localiza dónde está el objeto — solo determina qué hay en la imagen.
Cada imagen recibe exactamente una etiqueta. Se usa cuando las categorías son mutuamente excluyentes.
// Ejemplo: control de calidad
imagen_001.jpg → "Aprobado"
imagen_002.jpg → "Defectuoso"
imagen_003.jpg → "Requiere revisión"
Cada imagen puede tener múltiples etiquetas simultáneamente. Se usa cuando los atributos son independientes.
// Ejemplo: atributos de producto
imagen_001.jpg → ["azul", "talla_M", "verano"]
imagen_002.jpg → ["rojo", "talla_L"]
La detección de objetos localiza y clasifica múltiples objetos dentro de una imagen, devolviendo coordenadas de bounding boxes y etiquetas para cada objeto encontrado.
Qué devuelve la detección
// Respuesta de detección
{
"predictions": [
{
"tagName": "tornillo"
"probability": 0.98
"boundingBox": {
"left": 0.2, "top": 0.3
"width": 0.1, "height": 0.15
}
}
]
}
Casos de uso de detección
Inventario visual
Detectar y contar productos en estanterías de supermercado.
Seguridad industrial
Detectar EPP (casco, chaleco) en imágenes de cámaras.
Inspección de línea de ensamblaje
Localizar y clasificar defectos en productos.
Análisis de tráfico
Contar y clasificar vehículos en imágenes aéreas.
Clasificación vs Detección — trampa clave
Clasificación: "¿Qué hay en esta imagen?" → etiqueta para toda la imagen.
Detección: "¿Dónde está cada objeto y qué es?" → etiqueta + bounding box por cada objeto.
Si el enunciado dice "localizar", "coordenadas" o "múltiples objetos" → detección.
Crear proyecto
En customvision.ai o API. Elegir tipo: Clasificación (multiclass/multilabel) o Detección de objetos. Elegir dominio (General, Retail, Food, Landmarks, etc.).
Subir imágenes
Mínimo 15 imágenes por etiqueta para clasificación; 15 imágenes con al menos 1 objeto etiquetado para detección. Más imágenes = mejor precisión.
Etiquetar imágenes
Clasificación: asignar etiquetas a imágenes completas. Detección: dibujar bounding boxes alrededor de cada objeto y asignar etiqueta.
Entrenar
Clic en "Train". Custom Vision usa transfer learning sobre modelos preentrenados — proceso rápido (minutos). Genera una iteración numerada.
Evaluar métricas
Precision, Recall y AP (Average Precision) por etiqueta. La UI muestra una matriz de confusión y permite ajustar el umbral de probabilidad.
Publicar iteración
Publicar la iteración lista hace disponible la Prediction API. Puedes tener múltiples iteraciones y cambiar cuál está publicada.
Dominios de Custom Vision
Al crear el proyecto, seleccionas un dominio que preoptimiza el modelo base para tu tipo de imágenes:
Los dominios compact generan modelos más pequeños exportables para inferencia en edge/mobile.
¿Qué es una iteración?
Cada vez que entrenas el modelo se crea una nueva iteración numerada (Iteration 1, 2, 3...). Cada iteración es un snapshot independiente del modelo en ese punto.
Flujo típico de iteraciones
1. Entrenas con las primeras 30 imágenes → Iteration 1
2. Publicas Iteration 1 → disponible en Prediction API
3. Añades 50 imágenes más y re-entrenas → Iteration 2
4. Iteration 2 tiene mejores métricas → publicas Iteration 2
5. Iteration 1 queda disponible como fallback
APIs del servicio
Training API
Gestiona proyectos, sube imágenes, etiqueta, entrena y evalúa modelos.
Prediction API
Envía imágenes y recibe predicciones del modelo publicado. Producción.
Métricas de evaluación
Precision: de las predicciones positivas, ¿cuántas fueron correctas?
Recall: de todos los positivos reales, ¿cuántos encontró el modelo?
AP: Average Precision — área bajo la curva precision-recall.
Probability threshold: ajustar el umbral cambia el balance precision/recall.
| Dimensión | Custom Vision | Azure AI Vision (prebuilt) |
|---|---|---|
| Entrenamiento | Tus imágenes + etiquetas | No necesitas entrenar |
| Categorías | Las que tú definas | Las que Microsoft pre-entrenó |
| Configuración | Proyecto, imágenes, etiquetas, training | Solo API key + endpoint |
| Dominio específico | Ideal (tus propias clases) | No (clases genéricas) |
| Tiempo hasta producción | Horas/días (necesita datos) | Minutos |
| Costo | Entrenamiento + predicción | Solo predicción |
| Precisión en tu dominio | Alta (si tienes buenos datos) | Variable (depende del dominio) |
Regla para el examen
Si el escenario menciona clases genéricas (personas, objetos cotidianos, texto, marcas conocidas) → Azure AI Vision prebuilt.
Si menciona categorías específicas de negocio (tus productos, defectos industriales, razas específicas) → Custom Vision.
❓ ¿Custom Vision puede detectar objetos sin etiquetas de bounding box?
No para detección de objetos. Para detección necesitas etiquetar bounding boxes en las imágenes de entrenamiento. Para clasificación (imagen completa), no necesitas bounding boxes — solo asignas etiquetas a la imagen entera.
❓ ¿Con 5 imágenes de entrenamiento es suficiente para Custom Vision?
No. El mínimo recomendado es 15-20 imágenes por categoría para obtener resultados útiles. Con menos imágenes el modelo tendrá muy baja generalización. Para producción se recomiendan 50+ imágenes por clase.
❓ ¿Custom Vision y Azure AI Vision son el mismo servicio?
No. Azure AI Vision (Image Analysis) usa modelos pre-entrenados por Microsoft sin necesidad de datos propios. Custom Vision te permite entrenar con tus propias imágenes y categorías. Son servicios distintos con propósitos distintos, aunque ambos están bajo el paraguas de Azure AI.
¿Entendiste este tema?
Pon a prueba lo que acabas de aprender
Una empresa farmacéutica necesita identificar automáticamente si las cápsulas en su línea de producción tienen el color correcto (rojo, azul o amarillo) y si están deformadas. Tienen 200 imágenes etiquetadas de cápsulas correctas e incorrectas. ¿Qué servicio es más adecuado?