CDL

Deep Dive

Practicar ahora
D2 · Exploración de datos con Google Cloud

BigQuery: análisis de datos a escala

El data warehouse serverless de Google Cloud. Consulta petabytes con SQL en segundos, sin gestión de infraestructura.

Qué hace a BigQuery diferente

BigQuery es un data warehouse serverless — no hay servidores que aprovisionar, no hay clusters que configurar. Escribes SQL y Google Cloud escala automáticamente los recursos de cómputo para ejecutarlo.

La arquitectura clave: almacenamiento y cómputo están completamente separados. Puedes tener petabytes de datos almacenados sin pagar por cómputo hasta que ejecutas una query.

📊

Arquitectura columnar

BigQuery almacena datos en formato columnar (Capacitor), no por filas. Una query que accede a 3 columnas de una tabla de 100 columnas solo lee 3/100 del almacenamiento. Esto hace las consultas analíticas extremadamente eficientes.

Separación storage/cómputo

El almacenamiento en Colossus (el sistema de archivos distribuido de Google) es independiente del cómputo en Dremel. Puedes escalar uno sin el otro. También permite que múltiples clientes compartan el mismo cómputo.

💬

SQL estándar

BigQuery usa SQL estándar ANSI 2011, no un dialecto propietario. Si sabes SQL, puedes usar BigQuery. Soporta JOINs complejos, ventanas, CTEs, arrays y structs.

🔗

Integración nativa

Se conecta directamente con Cloud Storage, Pub/Sub, Dataflow, Looker Studio, Google Sheets y decenas de herramientas BI de terceros. Los datos en Cloud Storage pueden consultarse directamente con BigQuery Omni.

Precios y modelos de pago

On-demand (por consulta)

Precio~$5 por TB de datos procesados
Almacenamiento$0.02/GB/mes (activo), $0.01/GB/mes (largo plazo)
Primeros 10 GBGratis por mes
Cuándo usarCargas impredecibles, exploración de datos, desarrollo

Tip: usa SELECT columnas específicas (no SELECT *) y filtros WHERE para reducir TB procesados.

Reservas (slots)

UnidadSlots = unidades de cómputo de BigQuery
Precio~$0.06/slot/hora (comprometido: $0.04)
FlexibilidadHourly, Monthly o Annual commitments
Cuándo usarCargas predecibles y altas: producción, BI intensivo

Enterprise Edition incluye slots comprometidos y funciones avanzadas de BI Engine y ML.

Capacidades avanzadas

CapacidadQué haceCaso de uso
BigQuery MLEntrena modelos de ML con SQL dentro de BigQuery. Sin exportar datos.Regresión, clasificación, series temporales, recomendaciones con datos existentes en BQ
BI EngineCaché in-memory para acelerar queries de dashboards. Sub-segundo para tablas frecuentes.Dashboards de Looker Studio o Looker con alta concurrencia de usuarios
BigQuery OmniConsulta datos en AWS S3 o Azure Blob Storage desde BigQuery con SQL.Análisis multi-cloud sin mover datos. Empresas con datos en múltiples nubes.
Authorized ViewsComparte subconjuntos de datos sin exponer la tabla completa.Dar acceso a analistas a solo sus columnas/filas de datos sensibles
Streaming insertsInserta filas con latencia de segundos disponibles para queries.Analítica casi en tiempo real de eventos de apps, logs, telemetría
Scheduled QueriesEjecuta queries SQL de forma programada para actualizar tablas.Pipelines de transformación de datos sin Dataflow ni código Python

BigQuery vs alternativas

DimensiónBigQuery (GCP)Redshift (AWS)Synapse (Azure)
ModeloServerlessClusters (RA3 = semi-managed)Serverless + Dedicated pools
Precio query$5/TB procesadoPor cluster/hora (siempre encendido)$5/TB (serverless)
EscalaAutomática e ilimitadaManual scaling de nodosAuto-scale en serverless
MLBigQuery ML (SQL nativo)SageMaker (externo)Azure ML (externo)
Multi-cloudOmni: AWS + Azure nativamenteNoNo

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una empresa tiene 10 petabytes de datos históricos de ventas y necesita ejecutar análisis complejos con SQL para generar reportes mensuales. El equipo de datos no quiere gestionar ningún servidor ni cluster. ¿Qué servicio de Google Cloud es más adecuado?