Vertex AI: plataforma unificada de ML

La plataforma end-to-end de Google Cloud para construir, desplegar y gestionar modelos de ML. Desde datos hasta producción.

Qué es Vertex AI

Vertex AI es la plataforma unificada de ML de Google Cloud. Antes de 2021, Google tenía docenas de servicios de ML separados (AI Platform, AutoML Vision, AutoML NL, etc.) — Vertex AI los unifica en una sola plataforma coherente.

Cubre todo el ciclo de vida del ML: datos → experimentación → entrenamiento → evaluación → despliegue → monitoreo.

Un solo lugar

Todo el ciclo de vida del ML en una plataforma. Datasets, modelos, endpoints, pipelines y Feature Store en una consola.

AutoML + Custom

Desde AutoML sin código hasta entrenamiento con TensorFlow/PyTorch. Elige según tu equipo.

MLOps nativo

Pipelines reproducibles, versionado de modelos, monitoreo de drift, y CI/CD para ML.

Hardware GCP

Acceso a GPUs (NVIDIA A100, H100) y TPUs de Google para entrenamiento a escala.

Componentes principales de Vertex AI

Componente	Función	Cuándo usar
Vertex AI Workbench	Notebooks Jupyter administrados con acceso a GPUs/TPUs. Entorno de desarrollo ML en la nube.	Exploración de datos y experimentación con ML
AutoML	Entrena modelos de clasificación, regresión, visión o NLP con tus datos sin código.	No tienes equipo de ML pero tienes datos etiquetados
Custom Training	Ejecuta código propio (TF, PyTorch, scikit) en hardware gestionado. Máximo control.	Data scientists con modelos propios
Model Registry	Repositorio centralizado de modelos con versionado, metadatos y linaje.	Gestionar múltiples versiones de modelos en producción
Vertex AI Endpoints	Despliega modelos como APIs REST para inferencia en tiempo real. Auto-scaling.	Servir predicciones a aplicaciones en producción
Batch Prediction	Ejecuta predicciones sobre un dataset completo sin endpoint dedicado.	Predicciones offline sobre millones de registros
Feature Store	Repositorio centralizado de features de ML para compartir entre equipos y modelos.	Múltiples modelos que comparten los mismos features de datos
Vertex AI Pipelines	Orquesta workflows de ML reproducibles usando Kubeflow Pipelines o TFX.	MLOps: pipelines de entrenamiento y despliegue automatizados
Experiments	Rastrea y compara experimentos de ML: hiperparámetros, métricas, artefactos.	Comparar decenas de runs de entrenamiento sistemáticamente
Model Monitoring	Detecta drift en datos y predicciones de modelos en producción.	Asegurar que los modelos en producción no degradan su rendimiento

AutoML en detalle

AutoML Tables

Datos tabulares estructurados (CSV, BigQuery). Clasificación binaria, multiclase o regresión. Automatiza feature engineering y arquitectura del modelo.

Ejemplo de caso de uso

Predecir qué clientes van a cancelar su suscripción (churn).

AutoML Vision

Clasificación de imágenes, detección de objetos o segmentación. Sube imágenes etiquetadas y AutoML encuentra la mejor arquitectura de red neuronal.

Ejemplo de caso de uso

Detectar defectos en piezas de manufactura con fotos de la línea de producción.

AutoML Text

Clasificación de texto, extracción de entidades o análisis de sentimiento con tus propias categorías.

Ejemplo de caso de uso

Clasificar tickets de soporte por categoría (billing, técnico, general) usando historial de tickets.

AutoML Video

Clasificación de videos, reconocimiento de acciones o seguimiento de objetos en video.

Ejemplo de caso de uso

Reconocer ejercicios en videos de fitness para una app de entrenamiento.

TensorFlow y TPUs: el hardware de ML de Google

TensorFlow

Framework de ML open-source creado por Google en 2015. Uno de los más populares del mundo para deep learning. Vertex AI Custom Training lo soporta de forma nativa.

Open source: desarrollado por Google, contribuido a la comunidad

Keras: API de alto nivel sobre TensorFlow para mayor simplicidad

TFX (TensorFlow Extended): plataforma para pipelines de ML en producción

Compatible con GPUs (NVIDIA) y TPUs de Google

Cloud TPU (Tensor Processing Unit)

Chip diseñado por Google específicamente para acelerar operaciones de ML (multiplicaciones de matrices). Disponible en Vertex AI y como VMs en Compute Engine.

Optimizado para TensorFlow y JAX (no GPUs de propósito general)

TPU v5e: hasta 393 TFLOPs por chip — mucho más rápido para ML que GPUs estándar

Ideal para: entrenamiento de LLMs, visión computacional a escala masiva

Google los usa para entrenar Gemini y otros modelos de fundación internamente

GPU vs TPU: cuándo usar cada uno

GPU (NVIDIA A100, H100)

• Frameworks variados: PyTorch, TensorFlow, scikit-learn
• Inferencia y entrenamiento general
• Más flexible para diferentes tipos de modelos

TPU (Cloud TPU)

• Optimizado para TensorFlow y JAX específicamente
• Mejor para entrenar modelos muy grandes
• Mejor costo/rendimiento para LLMs y transformers

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Un equipo de data science tiene modelos de TensorFlow propios que necesitan entrenar semanalmente con nuevos datos. Quieren versionar los modelos, compararlos y desplegar el mejor automáticamente. ¿Qué componentes de Vertex AI necesitan?

Inicia sesión para llevar tu progreso.

AnteriorFundamentos de IA y Machine LearningIA e innovación con Google Cloud SiguienteIA Generativa con Google CloudIA e innovación con Google Cloud