CDL

Deep Dive

D2 · Exploración de datos con Google Cloud

Almacenamiento y bases de datos en Google Cloud

Guía completa para elegir el servicio de almacenamiento correcto: Cloud Storage, Cloud SQL, Firestore, Bigtable, Spanner y más.

El mapa completo de almacenamiento

Regla de oro para el CDL: primero pregúntate ¿qué tipo de datos? (objetos, relacional, NoSQL, analítica) y luego ¿a qué escala? (pequeña/mediana vs petabytes).

Servicio	Tipo	Escala	Mejor para
Cloud Storage	Objetos	Ilimitada	Archivos, imágenes, backups, data lakes, contenido estático
Cloud SQL	SQL relacional	TB	Apps web OLTP con MySQL, PostgreSQL o SQL Server
Cloud Spanner	SQL global distribuido	Petabytes	SQL a escala global con consistencia fuerte y disponibilidad 99.999%
AlloyDB	PostgreSQL compatible	TB	Cargas OLTP + OLAP empresariales en PostgreSQL con rendimiento 4× y columnar engine integrado
Firestore	NoSQL documentos	TB	Apps móviles/web con datos en tiempo real y sync
Bigtable	NoSQL columnar	Petabytes	Series temporales, IoT, AdTech a escala masiva con latencia sub-10ms
Memorystore	Caché en memoria	GB-TB	Redis/Memcached administrados para caché de sesiones y queries
BigQuery	Data warehouse analítico	Petabytes	Análisis de datos históricos, reportes, ML con SQL

Cloud Storage en profundidad

Las 4 clases de almacenamiento

Clase

Standard

SLA

99.99%

Acceso

Ilimitado sin cargo extra

Uso típico

Datos activos: imágenes de apps, sitios web, datos frecuentemente accedidos

Clase

Nearline

SLA

99.95%

Acceso

Mín 30 días, cobra por acceso

Uso típico

Backups mensuales, datos accedidos ~1 vez al mes

Clase

Coldline

SLA

99.95%

Acceso

Mín 90 días, cobra por acceso

Uso típico

Archivado trimestral, datos de DR raramente accedidos

Clase

Bases de datos: comparativa detallada

Cloud SQL vs Cloud Spanner

Dimensión	Cloud SQL	Cloud Spanner
Tecnología	MySQL, PostgreSQL, SQL Server estándar	Motor propietario de Google con API SQL
Escala	Escala vertical (hasta 96 vCPU, 624 GB RAM)	Escala horizontal ilimitada (splits automáticos)
Disponibilidad	Alta disponibilidad: 99.95% con HA regional	99.999% multi-regional (5 nueves)
Consistencia	Fuerte en una zona/región	Fuerte globalmente con TrueTime
Latencia writes	Baja (milisegundos)	Mayor (~5-20ms) por sincronización global
Costo	Desde $15/mes	Desde $65/mes por nodo
Mejor para	Apps web/móviles estándar, CMS, e-commerce	Apps globales: banca, gaming, inventario en tiempo real

Firestore vs Bigtable

Dimensión	Firestore	Bigtable
Modelo	Documentos JSON anidados con colecciones	Tabla ancha: filas + columnas (sparse)
Escala	TB (automático)	Petabytes (horizontal)
Latencia	Milisegundos (consultas en tiempo real)	Sub-10ms para lecturas/escrituras
Queries	Queries complejas con índices compuestos	Solo por row key y scan de rangos (sin SQL)
Sync RT	Sí — listeners en tiempo real para clientes	No — procesamiento batch/streaming
Mejor para	Apps móviles/web con usuarios finales, perfiles, configs	IoT (millones de dispositivos), series temporales, AdTech

El valor de los datos: bases conceptuales

Base de datos

Almacén estructurado de datos operacionales de una aplicación. Optimizada para lectura/escritura de registros individuales en tiempo real. Ej: Cloud SQL, Firestore, Bigtable.

Data Warehouse

Almacén de datos históricos estructurados para análisis. Optimizado para consultas analíticas sobre grandes volúmenes. Los datos se cargan de múltiples fuentes. Ej: BigQuery.

Data Lake

Repositorio que almacena datos en su forma cruda (estructurados y no estructurados) sin procesamiento previo. Flexibilidad máxima. Ej: Cloud Storage como data lake.

Tipo de dato	Descripción	Ejemplos
Datos estructurados	Organizados en tablas con filas y columnas. Esquema fijo y predefinido.	Pedidos, clientes, transacciones bancarias, inventario.
Datos semiestructurados	Tienen estructura pero flexible. Sin esquema rígido. Formatos: JSON, XML, CSV.	Logs de aplicaciones, datos de APIs, configuraciones.
Datos no estructurados	Sin esquema. La gran mayoría de datos del mundo (80%+).	Imágenes, videos, documentos PDF, audios, emails, código.

AlloyDB — PostgreSQL de alto rendimiento

AlloyDB for PostgreSQL es la base de datos relacional de alto rendimiento de Google Cloud, compatible con PostgreSQL pero construida sobre una arquitectura distribuida propia. Combina OLTP (transaccional) con capacidades analíticas OLAP — elimina la necesidad de mantener bases de datos separadas para cada carga.

Para el examen CDL: AlloyDB aparece cuando el escenario menciona PostgreSQL que necesita más rendimiento del que Cloud SQL puede ofrecer, o cuando se requieren cargas mixtas OLTP+OLAP.

Características clave

4x más rápido que PostgreSQL estándar

Arquitectura de almacenamiento distribuido que separa cómputo de almacenamiento — similar a Aurora en AWS.

Compatible 100% con PostgreSQL

Migración desde Cloud SQL (PostgreSQL) o on-premises PostgreSQL sin cambios de código en la aplicación.

OLTP + OLAP en una sola BD

Columnar engine integrado para queries analíticas sin afectar el rendimiento transaccional. No necesitas BigQuery para análisis en tiempo real sobre datos operacionales.

IA integrada

AlloyDB AI: embeddings vectoriales nativos y búsqueda vectorial directamente en PostgreSQL. Ideal para apps de RAG y búsqueda semántica.

AlloyDB vs Cloud SQL vs Cloud Spanner

Aspecto	Cloud SQL	AlloyDB	Cloud Spanner
Motor	MySQL / PG / SQL Server	PostgreSQL enhanced	SQL propio Google
Escala	TB (vertical)	TB (distribuido)	Petabytes (global)
OLAP integrado	No	Sí	No
Global	No	No (regional)	Sí (multi-región)
Precio	Bajo	Medio-Alto	Alto

Regla para el examen

Si el escenario dice "PostgreSQL" + "alto rendimiento" o "analítica en tiempo real sobre datos operacionales" → AlloyDB. Si solo dice "PostgreSQL" sin requisitos extremos → Cloud SQL.

Gobernanza de datos (Data Governance)

La gobernanza de datos es el conjunto de políticas, procesos y herramientas para garantizar que los datos sean accesibles, seguros, de alta calidad y usados de forma ética y conforme a regulaciones.

Calidad de datos

Datos precisos, completos, consistentes y actualizados. Datos de baja calidad llevan a decisiones incorrectas.

Catálogo de datos

Inventario de qué datos existen, dónde están, qué significan y quién puede accederlos. Dataplex en GCP.

Linaje de datos

Trazar el origen y transformaciones de un dato desde su fuente hasta el reporte final. Clave para auditorías.

Privacidad y compliance

Cumplir con GDPR, LGPD, HIPAA: clasificar datos sensibles, controlar acceso, anonimizar cuando corresponde.

Dataplex: gobernanza de datos en GCP

Dataplex es el servicio de Google Cloud para gestión inteligente de datos a escala. Permite organizar datos distribuidos en Cloud Storage y BigQuery en "lakes" lógicos, aplicar políticas de seguridad centralizadas, catalogar metadatos automáticamente y monitorear la calidad de datos con reglas.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una startup está construyendo una app móvil de mensajería con millones de usuarios que necesita sincronizar mensajes en tiempo real entre dispositivos y escalar automáticamente. ¿Qué base de datos de Google Cloud es más adecuada?

Inicia sesión para llevar tu progreso.

AnteriorInfraestructura global de Google CloudTransformación digital con Google Cloud SiguienteBigQuery: análisis de datos a escalaExploración de datos con Google Cloud