CDL
Deep Dive
El data warehouse serverless de Google Cloud. Consulta petabytes con SQL en segundos, sin gestión de infraestructura.
BigQuery es un data warehouse serverless — no hay servidores que aprovisionar, no hay clusters que configurar. Escribes SQL y Google Cloud escala automáticamente los recursos de cómputo para ejecutarlo.
La arquitectura clave: almacenamiento y cómputo están completamente separados. Puedes tener petabytes de datos almacenados sin pagar por cómputo hasta que ejecutas una query.
Arquitectura columnar
BigQuery almacena datos en formato columnar (Capacitor), no por filas. Una query que accede a 3 columnas de una tabla de 100 columnas solo lee 3/100 del almacenamiento. Esto hace las consultas analíticas extremadamente eficientes.
Separación storage/cómputo
El almacenamiento en Colossus (el sistema de archivos distribuido de Google) es independiente del cómputo en Dremel. Puedes escalar uno sin el otro. También permite que múltiples clientes compartan el mismo cómputo.
SQL estándar
BigQuery usa SQL estándar ANSI 2011, no un dialecto propietario. Si sabes SQL, puedes usar BigQuery. Soporta JOINs complejos, ventanas, CTEs, arrays y structs.
Integración nativa
Se conecta directamente con Cloud Storage, Pub/Sub, Dataflow, Looker Studio, Google Sheets y decenas de herramientas BI de terceros. Los datos en Cloud Storage pueden consultarse directamente con BigQuery Omni.
On-demand (por consulta)
Tip: usa SELECT columnas específicas (no SELECT *) y filtros WHERE para reducir TB procesados.
Reservas (slots)
Enterprise Edition incluye slots comprometidos y funciones avanzadas de BI Engine y ML.
| Capacidad | Qué hace | Caso de uso |
|---|---|---|
| BigQuery ML | Entrena modelos de ML con SQL dentro de BigQuery. Sin exportar datos. | Regresión, clasificación, series temporales, recomendaciones con datos existentes en BQ |
| BI Engine | Caché in-memory para acelerar queries de dashboards. Sub-segundo para tablas frecuentes. | Dashboards de Looker Studio o Looker con alta concurrencia de usuarios |
| BigQuery Omni | Consulta datos en AWS S3 o Azure Blob Storage desde BigQuery con SQL. | Análisis multi-cloud sin mover datos. Empresas con datos en múltiples nubes. |
| Authorized Views | Comparte subconjuntos de datos sin exponer la tabla completa. | Dar acceso a analistas a solo sus columnas/filas de datos sensibles |
| Streaming inserts | Inserta filas con latencia de segundos disponibles para queries. | Analítica casi en tiempo real de eventos de apps, logs, telemetría |
| Scheduled Queries | Ejecuta queries SQL de forma programada para actualizar tablas. | Pipelines de transformación de datos sin Dataflow ni código Python |
| Dimensión | BigQuery (GCP) | Redshift (AWS) | Synapse (Azure) |
|---|---|---|---|
| Modelo | Serverless | Clusters (RA3 = semi-managed) | Serverless + Dedicated pools |
| Precio query | $5/TB procesado | Por cluster/hora (siempre encendido) | $5/TB (serverless) |
| Escala | Automática e ilimitada | Manual scaling de nodos | Auto-scale en serverless |
| ML | BigQuery ML (SQL nativo) | SageMaker (externo) | Azure ML (externo) |
| Multi-cloud | Omni: AWS + Azure nativamente | No | No |
¿Entendiste este tema?
Pon a prueba lo que acabas de aprender
Una empresa tiene 10 petabytes de datos históricos de ventas y necesita ejecutar análisis complejos con SQL para generar reportes mensuales. El equipo de datos no quiere gestionar ningún servidor ni cluster. ¿Qué servicio de Google Cloud es más adecuado?