CDL
Deep Dive
Cómo mover, transformar y visualizar datos en Google Cloud. El pipeline estándar de GCP y las herramientas de BI.
Arquitectura de referencia
Fuente
Apps, IoT, Logs
Pub/Sub
Mensajería
Dataflow
Transformación
BigQuery
Almacén
Looker
Visualización
Pipeline de streaming en tiempo real. Para batch: Cloud Storage → Dataflow → BigQuery
Modelo publicador-suscriptor
Publisher (Publicador)
Produce mensajes y los envía a un Topic. No sabe quién los va a leer. Puede ser una app, un sensor IoT, un log, etc.
Topic (Tema)
Canal de mensajes. Los mensajes se almacenan hasta que son reconocidos por todos los suscriptores o hasta que expira la retención (máx 7 días).
Subscription (Suscripción)
Receptor de mensajes de un topic. Puede ser push (Pub/Sub envía) o pull (el suscriptor pide). Múltiples subscriptions por topic.
| Característica | Detalle |
|---|---|
| Garantía de entrega | At-least-once: un mensaje puede entregarse más de una vez. Los consumidores deben ser idempotentes o usar la opción Exactly-once. |
| Throughput | Hasta millones de mensajes por segundo. Escala automáticamente sin configuración. |
| Fan-out | Un topic puede tener múltiples subscriptions — cada suscriptor recibe todos los mensajes de forma independiente. |
| Dead Letter Topics | Mensajes que no pueden procesarse después de N intentos se redirigen a otro topic para análisis. |
| Message ordering | Con Ordering Key, los mensajes con la misma clave se entregan en orden. Sin clave, el orden no está garantizado. |
| Retención | Mensajes retenidos hasta 7 días. Permite reenviar mensajes pasados a una nueva subscription. |
Dataflow es el servicio administrado para ejecutar pipelines de datos basados en Apache Beam. El mismo código funciona para batch (datos históricos) y streaming (datos en tiempo real) — esto se llama el modelo de programación unificado de Beam.
Serverless
No hay workers que configurar. Dataflow provisiona y escala automáticamente.
Batch + Streaming
El mismo pipeline Apache Beam procesa datos históricos o en tiempo real.
Templates
Templates predefinidos para casos comunes: Pub/Sub → BigQuery, GCS → BigQuery, etc.
Integración
Lee de Pub/Sub, Cloud Storage, BigQuery. Escribe a BigQuery, Cloud Storage, Bigtable.
Dataflow vs Dataproc
Dataflow (usa cuando)
Dataproc (usa cuando)
Looker (Enterprise BI)
Looker Studio (antes Data Studio)
¿Entendiste este tema?
Pon a prueba lo que acabas de aprender
Un sistema de monitoreo de sensores IoT genera 1 millón de eventos por segundo. Los datos deben procesarse en tiempo real para detectar anomalías y almacenarse en BigQuery para análisis histórico. ¿Qué arquitectura de GCP es correcta?