CDL

Deep Dive

Practicar ahora
D3 · IA e innovación con Google Cloud

Vertex AI: plataforma unificada de ML

La plataforma end-to-end de Google Cloud para construir, desplegar y gestionar modelos de ML. Desde datos hasta producción.

Qué es Vertex AI

Vertex AI es la plataforma unificada de ML de Google Cloud. Antes de 2021, Google tenía docenas de servicios de ML separados (AI Platform, AutoML Vision, AutoML NL, etc.) — Vertex AI los unifica en una sola plataforma coherente.

Cubre todo el ciclo de vida del ML: datos → experimentación → entrenamiento → evaluación → despliegue → monitoreo.

Un solo lugar

Todo el ciclo de vida del ML en una plataforma. Datasets, modelos, endpoints, pipelines y Feature Store en una consola.

AutoML + Custom

Desde AutoML sin código hasta entrenamiento con TensorFlow/PyTorch. Elige según tu equipo.

MLOps nativo

Pipelines reproducibles, versionado de modelos, monitoreo de drift, y CI/CD para ML.

Hardware GCP

Acceso a GPUs (NVIDIA A100, H100) y TPUs de Google para entrenamiento a escala.

Componentes principales de Vertex AI

ComponenteFunciónCuándo usar
Vertex AI WorkbenchNotebooks Jupyter administrados con acceso a GPUs/TPUs. Entorno de desarrollo ML en la nube.Exploración de datos y experimentación con ML
AutoMLEntrena modelos de clasificación, regresión, visión o NLP con tus datos sin código.No tienes equipo de ML pero tienes datos etiquetados
Custom TrainingEjecuta código propio (TF, PyTorch, scikit) en hardware gestionado. Máximo control.Data scientists con modelos propios
Model RegistryRepositorio centralizado de modelos con versionado, metadatos y linaje.Gestionar múltiples versiones de modelos en producción
Vertex AI EndpointsDespliega modelos como APIs REST para inferencia en tiempo real. Auto-scaling.Servir predicciones a aplicaciones en producción
Batch PredictionEjecuta predicciones sobre un dataset completo sin endpoint dedicado.Predicciones offline sobre millones de registros
Feature StoreRepositorio centralizado de features de ML para compartir entre equipos y modelos.Múltiples modelos que comparten los mismos features de datos
Vertex AI PipelinesOrquesta workflows de ML reproducibles usando Kubeflow Pipelines o TFX.MLOps: pipelines de entrenamiento y despliegue automatizados
ExperimentsRastrea y compara experimentos de ML: hiperparámetros, métricas, artefactos.Comparar decenas de runs de entrenamiento sistemáticamente
Model MonitoringDetecta drift en datos y predicciones de modelos en producción.Asegurar que los modelos en producción no degradan su rendimiento

AutoML en detalle

AutoML Tables

Datos tabulares estructurados (CSV, BigQuery). Clasificación binaria, multiclase o regresión. Automatiza feature engineering y arquitectura del modelo.

Ejemplo de caso de uso

Predecir qué clientes van a cancelar su suscripción (churn).

AutoML Vision

Clasificación de imágenes, detección de objetos o segmentación. Sube imágenes etiquetadas y AutoML encuentra la mejor arquitectura de red neuronal.

Ejemplo de caso de uso

Detectar defectos en piezas de manufactura con fotos de la línea de producción.

AutoML Text

Clasificación de texto, extracción de entidades o análisis de sentimiento con tus propias categorías.

Ejemplo de caso de uso

Clasificar tickets de soporte por categoría (billing, técnico, general) usando historial de tickets.

AutoML Video

Clasificación de videos, reconocimiento de acciones o seguimiento de objetos en video.

Ejemplo de caso de uso

Reconocer ejercicios en videos de fitness para una app de entrenamiento.

TensorFlow y TPUs: el hardware de ML de Google

TensorFlow

Framework de ML open-source creado por Google en 2015. Uno de los más populares del mundo para deep learning. Vertex AI Custom Training lo soporta de forma nativa.

Open source: desarrollado por Google, contribuido a la comunidad
Keras: API de alto nivel sobre TensorFlow para mayor simplicidad
TFX (TensorFlow Extended): plataforma para pipelines de ML en producción
Compatible con GPUs (NVIDIA) y TPUs de Google

Cloud TPU (Tensor Processing Unit)

Chip diseñado por Google específicamente para acelerar operaciones de ML (multiplicaciones de matrices). Disponible en Vertex AI y como VMs en Compute Engine.

Optimizado para TensorFlow y JAX (no GPUs de propósito general)
TPU v5e: hasta 393 TFLOPs por chip — mucho más rápido para ML que GPUs estándar
Ideal para: entrenamiento de LLMs, visión computacional a escala masiva
Google los usa para entrenar Gemini y otros modelos de fundación internamente

GPU vs TPU: cuándo usar cada uno

GPU (NVIDIA A100, H100)

  • • Frameworks variados: PyTorch, TensorFlow, scikit-learn
  • • Inferencia y entrenamiento general
  • • Más flexible para diferentes tipos de modelos

TPU (Cloud TPU)

  • • Optimizado para TensorFlow y JAX específicamente
  • • Mejor para entrenar modelos muy grandes
  • • Mejor costo/rendimiento para LLMs y transformers

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Un equipo de data science tiene modelos de TensorFlow propios que necesitan entrenar semanalmente con nuevos datos. Quieren versionar los modelos, compararlos y desplegar el mejor automáticamente. ¿Qué componentes de Vertex AI necesitan?