Pipelines de datos: Pub/Sub, Dataflow y Looker

Cómo mover, transformar y visualizar datos en Google Cloud. El pipeline estándar de GCP y las herramientas de BI.

El pipeline de datos estándar en GCP

Arquitectura de referencia

Fuente

Apps, IoT, Logs

→

Pub/Sub

Mensajería

→

Dataflow

Transformación

→

BigQuery

Almacén

→

Looker

Visualización

Pipeline de streaming en tiempo real. Para batch: Cloud Storage → Dataflow → BigQuery

Pub/Sub en profundidad

Modelo publicador-suscriptor

Publisher (Publicador)

Produce mensajes y los envía a un Topic. No sabe quién los va a leer. Puede ser una app, un sensor IoT, un log, etc.

Topic (Tema)

Canal de mensajes. Los mensajes se almacenan hasta que son reconocidos por todos los suscriptores o hasta que expira la retención (máx 7 días).

Subscription (Suscripción)

Receptor de mensajes de un topic. Puede ser push (Pub/Sub envía) o pull (el suscriptor pide). Múltiples subscriptions por topic.

Característica	Detalle
Garantía de entrega	At-least-once: un mensaje puede entregarse más de una vez. Los consumidores deben ser idempotentes o usar la opción Exactly-once.
Throughput	Hasta millones de mensajes por segundo. Escala automáticamente sin configuración.
Fan-out	Un topic puede tener múltiples subscriptions — cada suscriptor recibe todos los mensajes de forma independiente.
Dead Letter Topics	Mensajes que no pueden procesarse después de N intentos se redirigen a otro topic para análisis.
Message ordering	Con Ordering Key, los mensajes con la misma clave se entregan en orden. Sin clave, el orden no está garantizado.
Retención	Mensajes retenidos hasta 7 días. Permite reenviar mensajes pasados a una nueva subscription.

Dataflow: procesamiento de datos

Dataflow es el servicio administrado para ejecutar pipelines de datos basados en Apache Beam. El mismo código funciona para batch (datos históricos) y streaming (datos en tiempo real) — esto se llama el modelo de programación unificado de Beam.

Serverless

No hay workers que configurar. Dataflow provisiona y escala automáticamente.

Batch + Streaming

El mismo pipeline Apache Beam procesa datos históricos o en tiempo real.

Templates

Templates predefinidos para casos comunes: Pub/Sub → BigQuery, GCS → BigQuery, etc.

Integración

Lee de Pub/Sub, Cloud Storage, BigQuery. Escribe a BigQuery, Cloud Storage, Bigtable.

Dataflow vs Dataproc

Dataflow (usa cuando)

• Nuevo pipeline sin código legacy
• Quieres serverless sin gestionar clusters
• Necesitas batch Y streaming con el mismo código
• Estás dispuesto a aprender Apache Beam

Dataproc (usa cuando)

• Tienes código Hadoop/Spark existente
• Quieres migrar un pipeline on-premises
• El equipo ya sabe Spark/Hive/Pig
• Necesitas ecosystem Hadoop completo

Looker y Looker Studio: BI y visualización

Looker (Enterprise BI)

• Plataforma de BI empresarial con LookML (lenguaje de modelado de datos)
• Fuente única de verdad: las métricas se definen una vez en LookML
• Embedded analytics: integra reportes en tus propias apps
• Conecta a BigQuery, Cloud SQL, y 50+ bases de datos
• Precio: licencia por usuario (más costoso)

Looker Studio (antes Data Studio)

• Gratuito: herramienta de reportes y dashboards interactivos
• Conecta directamente a BigQuery, Google Sheets, Analytics, etc.
• Drag-and-drop para crear visualizaciones sin código
• Ideal para equipos pequeños y reportes de marketing/ventas
• Looker Studio Pro disponible para funciones empresariales

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Un sistema de monitoreo de sensores IoT genera 1 millón de eventos por segundo. Los datos deben procesarse en tiempo real para detectar anomalías y almacenarse en BigQuery para análisis histórico. ¿Qué arquitectura de GCP es correcta?

Inicia sesión para llevar tu progreso.

AnteriorBigQuery: análisis de datos a escalaExploración de datos con Google Cloud SiguienteFundamentos de IA y Machine LearningIA e innovación con Google Cloud