BigQuery: análisis de datos a escala

El data warehouse serverless de Google Cloud. Consulta petabytes con SQL en segundos, sin gestión de infraestructura.

Qué hace a BigQuery diferente

BigQuery es un data warehouse serverless — no hay servidores que aprovisionar, no hay clusters que configurar. Escribes SQL y Google Cloud escala automáticamente los recursos de cómputo para ejecutarlo.

La arquitectura clave: almacenamiento y cómputo están completamente separados. Puedes tener petabytes de datos almacenados sin pagar por cómputo hasta que ejecutas una query.

📊

Arquitectura columnar

BigQuery almacena datos en formato columnar (Capacitor), no por filas. Una query que accede a 3 columnas de una tabla de 100 columnas solo lee 3/100 del almacenamiento. Esto hace las consultas analíticas extremadamente eficientes.

⚡

Separación storage/cómputo

El almacenamiento en Colossus (el sistema de archivos distribuido de Google) es independiente del cómputo en Dremel. Puedes escalar uno sin el otro. También permite que múltiples clientes compartan el mismo cómputo.

💬

SQL estándar

BigQuery usa SQL estándar ANSI 2011, no un dialecto propietario. Si sabes SQL, puedes usar BigQuery. Soporta JOINs complejos, ventanas, CTEs, arrays y structs.

🔗

Integración nativa

Se conecta directamente con Cloud Storage, Pub/Sub, Dataflow, Looker Studio, Google Sheets y decenas de herramientas BI de terceros. Los datos en Cloud Storage pueden consultarse directamente con BigQuery Omni.

Precios y modelos de pago

On-demand (por consulta)

Precio~$5 por TB de datos procesados

Almacenamiento$0.02/GB/mes (activo), $0.01/GB/mes (largo plazo)

Primeros 10 GBGratis por mes

Cuándo usarCargas impredecibles, exploración de datos, desarrollo

Tip: usa SELECT columnas específicas (no SELECT *) y filtros WHERE para reducir TB procesados.

Reservas (slots)

UnidadSlots = unidades de cómputo de BigQuery

Precio~$0.06/slot/hora (comprometido: $0.04)

FlexibilidadHourly, Monthly o Annual commitments

Cuándo usarCargas predecibles y altas: producción, BI intensivo

Enterprise Edition incluye slots comprometidos y funciones avanzadas de BI Engine y ML.

Capacidades avanzadas

Capacidad	Qué hace	Caso de uso
BigQuery ML	Entrena modelos de ML con SQL dentro de BigQuery. Sin exportar datos.	Regresión, clasificación, series temporales, recomendaciones con datos existentes en BQ
BI Engine	Caché in-memory para acelerar queries de dashboards. Sub-segundo para tablas frecuentes.	Dashboards de Looker Studio o Looker con alta concurrencia de usuarios
BigQuery Omni	Consulta datos en AWS S3 o Azure Blob Storage desde BigQuery con SQL.	Análisis multi-cloud sin mover datos. Empresas con datos en múltiples nubes.
Authorized Views	Comparte subconjuntos de datos sin exponer la tabla completa.	Dar acceso a analistas a solo sus columnas/filas de datos sensibles
Streaming inserts	Inserta filas con latencia de segundos disponibles para queries.	Analítica casi en tiempo real de eventos de apps, logs, telemetría
Scheduled Queries	Ejecuta queries SQL de forma programada para actualizar tablas.	Pipelines de transformación de datos sin Dataflow ni código Python

BigQuery vs alternativas

Dimensión	BigQuery (GCP)	Redshift (AWS)	Synapse (Azure)
Modelo	Serverless	Clusters (RA3 = semi-managed)	Serverless + Dedicated pools
Precio query	$5/TB procesado	Por cluster/hora (siempre encendido)	$5/TB (serverless)
Escala	Automática e ilimitada	Manual scaling de nodos	Auto-scale en serverless
ML	BigQuery ML (SQL nativo)	SageMaker (externo)	Azure ML (externo)
Multi-cloud	Omni: AWS + Azure nativamente	No	No

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una empresa tiene 10 petabytes de datos históricos de ventas y necesita ejecutar análisis complejos con SQL para generar reportes mensuales. El equipo de datos no quiere gestionar ningún servidor ni cluster. ¿Qué servicio de Google Cloud es más adecuado?

Inicia sesión para llevar tu progreso.

AnteriorAlmacenamiento y bases de datos en Google CloudExploración de datos con Google Cloud SiguientePipelines de datos: Pub/Sub, Dataflow y LookerExploración de datos con Google Cloud