CDL

Deep Dive

Practicar ahora
D2 · Exploración de datos con Google Cloud

Pipelines de datos: Pub/Sub, Dataflow y Looker

Cómo mover, transformar y visualizar datos en Google Cloud. El pipeline estándar de GCP y las herramientas de BI.

El pipeline de datos estándar en GCP

Arquitectura de referencia

Fuente

Apps, IoT, Logs

Pub/Sub

Mensajería

Dataflow

Transformación

BigQuery

Almacén

Looker

Visualización

Pipeline de streaming en tiempo real. Para batch: Cloud Storage → Dataflow → BigQuery

Pub/Sub en profundidad

Modelo publicador-suscriptor

Publisher (Publicador)

Produce mensajes y los envía a un Topic. No sabe quién los va a leer. Puede ser una app, un sensor IoT, un log, etc.

Topic (Tema)

Canal de mensajes. Los mensajes se almacenan hasta que son reconocidos por todos los suscriptores o hasta que expira la retención (máx 7 días).

Subscription (Suscripción)

Receptor de mensajes de un topic. Puede ser push (Pub/Sub envía) o pull (el suscriptor pide). Múltiples subscriptions por topic.

CaracterísticaDetalle
Garantía de entregaAt-least-once: un mensaje puede entregarse más de una vez. Los consumidores deben ser idempotentes o usar la opción Exactly-once.
ThroughputHasta millones de mensajes por segundo. Escala automáticamente sin configuración.
Fan-outUn topic puede tener múltiples subscriptions — cada suscriptor recibe todos los mensajes de forma independiente.
Dead Letter TopicsMensajes que no pueden procesarse después de N intentos se redirigen a otro topic para análisis.
Message orderingCon Ordering Key, los mensajes con la misma clave se entregan en orden. Sin clave, el orden no está garantizado.
RetenciónMensajes retenidos hasta 7 días. Permite reenviar mensajes pasados a una nueva subscription.

Dataflow: procesamiento de datos

Dataflow es el servicio administrado para ejecutar pipelines de datos basados en Apache Beam. El mismo código funciona para batch (datos históricos) y streaming (datos en tiempo real) — esto se llama el modelo de programación unificado de Beam.

Serverless

No hay workers que configurar. Dataflow provisiona y escala automáticamente.

Batch + Streaming

El mismo pipeline Apache Beam procesa datos históricos o en tiempo real.

Templates

Templates predefinidos para casos comunes: Pub/Sub → BigQuery, GCS → BigQuery, etc.

Integración

Lee de Pub/Sub, Cloud Storage, BigQuery. Escribe a BigQuery, Cloud Storage, Bigtable.

Dataflow vs Dataproc

Dataflow (usa cuando)

  • • Nuevo pipeline sin código legacy
  • • Quieres serverless sin gestionar clusters
  • • Necesitas batch Y streaming con el mismo código
  • • Estás dispuesto a aprender Apache Beam

Dataproc (usa cuando)

  • • Tienes código Hadoop/Spark existente
  • • Quieres migrar un pipeline on-premises
  • • El equipo ya sabe Spark/Hive/Pig
  • • Necesitas ecosystem Hadoop completo

Looker y Looker Studio: BI y visualización

Looker (Enterprise BI)

  • • Plataforma de BI empresarial con LookML (lenguaje de modelado de datos)
  • • Fuente única de verdad: las métricas se definen una vez en LookML
  • • Embedded analytics: integra reportes en tus propias apps
  • • Conecta a BigQuery, Cloud SQL, y 50+ bases de datos
  • • Precio: licencia por usuario (más costoso)

Looker Studio (antes Data Studio)

  • • Gratuito: herramienta de reportes y dashboards interactivos
  • • Conecta directamente a BigQuery, Google Sheets, Analytics, etc.
  • • Drag-and-drop para crear visualizaciones sin código
  • • Ideal para equipos pequeños y reportes de marketing/ventas
  • • Looker Studio Pro disponible para funciones empresariales

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Un sistema de monitoreo de sensores IoT genera 1 millón de eventos por segundo. Los datos deben procesarse en tiempo real para detectar anomalías y almacenarse en BigQuery para análisis histórico. ¿Qué arquitectura de GCP es correcta?