CDL
Deep Dive
Guía completa para elegir el servicio de almacenamiento correcto: Cloud Storage, Cloud SQL, Firestore, Bigtable, Spanner y más.
Regla de oro para el CDL: primero pregúntate ¿qué tipo de datos? (objetos, relacional, NoSQL, analítica) y luego ¿a qué escala? (pequeña/mediana vs petabytes).
| Servicio | Tipo | Escala | Mejor para |
|---|---|---|---|
| Cloud Storage | Objetos | Ilimitada | Archivos, imágenes, backups, data lakes, contenido estático |
| Cloud SQL | SQL relacional | TB | Apps web OLTP con MySQL, PostgreSQL o SQL Server |
| Cloud Spanner | SQL global distribuido | Petabytes | SQL a escala global con consistencia fuerte y disponibilidad 99.999% |
| AlloyDB | PostgreSQL enhanced | TB | Cargas OLTP + OLAP en PostgreSQL que necesitan más rendimiento |
| Firestore | NoSQL documentos | TB | Apps móviles/web con datos en tiempo real y sync |
| Bigtable | NoSQL columnar | Petabytes | Series temporales, IoT, AdTech a escala masiva con latencia sub-10ms |
| Memorystore | Caché en memoria | GB-TB | Redis/Memcached administrados para caché de sesiones y queries |
| BigQuery | Data warehouse analítico | Petabytes | Análisis de datos históricos, reportes, ML con SQL |
Las 4 clases de almacenamiento
Clase
Standard
SLA
99.99%
Acceso
Ilimitado sin cargo extra
Uso típico
Datos activos: imágenes de apps, sitios web, datos frecuentemente accedidos
Clase
Nearline
SLA
99.95%
Acceso
Mín 30 días, cobra por acceso
Uso típico
Backups mensuales, datos accedidos ~1 vez al mes
Clase
Coldline
SLA
99.95%
Acceso
Mín 90 días, cobra por acceso
Uso típico
Archivado trimestral, datos de DR raramente accedidos
Clase
Archive
SLA
99.95%
Acceso
Mín 365 días, cobra por acceso
Uso típico
Archivado a largo plazo: auditoría, cumplimiento, datos históricos
Trampas del examen sobre Cloud Storage
Cloud SQL vs Cloud Spanner
| Dimensión | Cloud SQL | Cloud Spanner |
|---|---|---|
| Tecnología | MySQL, PostgreSQL, SQL Server estándar | Motor propietario de Google con API SQL |
| Escala | Escala vertical (hasta 96 vCPU, 624 GB RAM) | Escala horizontal ilimitada (splits automáticos) |
| Disponibilidad | Alta disponibilidad: 99.95% con HA regional | 99.999% multi-regional (5 nueves) |
| Consistencia | Fuerte en una zona/región | Fuerte globalmente con TrueTime |
| Latencia writes | Baja (milisegundos) | Mayor (~5-20ms) por sincronización global |
| Costo | Desde $15/mes | Desde $65/mes por nodo |
| Mejor para | Apps web/móviles estándar, CMS, e-commerce | Apps globales: banca, gaming, inventario en tiempo real |
Firestore vs Bigtable
| Dimensión | Firestore | Bigtable |
|---|---|---|
| Modelo | Documentos JSON anidados con colecciones | Tabla ancha: filas + columnas (sparse) |
| Escala | TB (automático) | Petabytes (horizontal) |
| Latencia | Milisegundos (consultas en tiempo real) | Sub-10ms para lecturas/escrituras |
| Queries | Queries complejas con índices compuestos | Solo por row key y scan de rangos (sin SQL) |
| Sync RT | Sí — listeners en tiempo real para clientes | No — procesamiento batch/streaming |
| Mejor para | Apps móviles/web con usuarios finales, perfiles, configs | IoT (millones de dispositivos), series temporales, AdTech |
Base de datos
Almacén estructurado de datos operacionales de una aplicación. Optimizada para lectura/escritura de registros individuales en tiempo real. Ej: Cloud SQL, Firestore, Bigtable.
Data Warehouse
Almacén de datos históricos estructurados para análisis. Optimizado para consultas analíticas sobre grandes volúmenes. Los datos se cargan de múltiples fuentes. Ej: BigQuery.
Data Lake
Repositorio que almacena datos en su forma cruda (estructurados y no estructurados) sin procesamiento previo. Flexibilidad máxima. Ej: Cloud Storage como data lake.
| Tipo de dato | Descripción | Ejemplos |
|---|---|---|
| Datos estructurados | Organizados en tablas con filas y columnas. Esquema fijo y predefinido. | Pedidos, clientes, transacciones bancarias, inventario. |
| Datos semiestructurados | Tienen estructura pero flexible. Sin esquema rígido. Formatos: JSON, XML, CSV. | Logs de aplicaciones, datos de APIs, configuraciones. |
| Datos no estructurados | Sin esquema. La gran mayoría de datos del mundo (80%+). | Imágenes, videos, documentos PDF, audios, emails, código. |
AlloyDB for PostgreSQL es la base de datos relacional de alto rendimiento de Google Cloud, compatible con PostgreSQL pero construida sobre una arquitectura distribuida propia. Combina OLTP (transaccional) con capacidades analíticas OLAP — elimina la necesidad de mantener bases de datos separadas para cada carga.
Para el examen CDL: AlloyDB aparece cuando el escenario menciona PostgreSQL que necesita más rendimiento del que Cloud SQL puede ofrecer, o cuando se requieren cargas mixtas OLTP+OLAP.
Características clave
4x más rápido que PostgreSQL estándar
Arquitectura de almacenamiento distribuido que separa cómputo de almacenamiento — similar a Aurora en AWS.
Compatible 100% con PostgreSQL
Migración desde Cloud SQL (PostgreSQL) o on-premises PostgreSQL sin cambios de código en la aplicación.
OLTP + OLAP en una sola BD
Columnar engine integrado para queries analíticas sin afectar el rendimiento transaccional. No necesitas BigQuery para análisis en tiempo real sobre datos operacionales.
IA integrada
AlloyDB AI: embeddings vectoriales nativos y búsqueda vectorial directamente en PostgreSQL. Ideal para apps de RAG y búsqueda semántica.
AlloyDB vs Cloud SQL vs Cloud Spanner
| Aspecto | Cloud SQL | AlloyDB | Cloud Spanner |
|---|---|---|---|
| Motor | MySQL / PG / SQL Server | PostgreSQL enhanced | SQL propio Google |
| Escala | TB (vertical) | TB (distribuido) | Petabytes (global) |
| OLAP integrado | No | Sí | No |
| Global | No | No (regional) | Sí (multi-región) |
| Precio | Bajo | Medio-Alto | Alto |
Regla para el examen
Si el escenario dice "PostgreSQL" + "alto rendimiento" o "analítica en tiempo real sobre datos operacionales" → AlloyDB. Si solo dice "PostgreSQL" sin requisitos extremos → Cloud SQL.
La gobernanza de datos es el conjunto de políticas, procesos y herramientas para garantizar que los datos sean accesibles, seguros, de alta calidad y usados de forma ética y conforme a regulaciones.
Calidad de datos
Datos precisos, completos, consistentes y actualizados. Datos de baja calidad llevan a decisiones incorrectas.
Catálogo de datos
Inventario de qué datos existen, dónde están, qué significan y quién puede accederlos. Dataplex en GCP.
Linaje de datos
Trazar el origen y transformaciones de un dato desde su fuente hasta el reporte final. Clave para auditorías.
Privacidad y compliance
Cumplir con GDPR, LGPD, HIPAA: clasificar datos sensibles, controlar acceso, anonimizar cuando corresponde.
Dataplex: gobernanza de datos en GCP
Dataplex es el servicio de Google Cloud para gestión inteligente de datos a escala. Permite organizar datos distribuidos en Cloud Storage y BigQuery en "lakes" lógicos, aplicar políticas de seguridad centralizadas, catalogar metadatos automáticamente y monitorear la calidad de datos con reglas.
¿Entendiste este tema?
Pon a prueba lo que acabas de aprender
Una startup está construyendo una app móvil de mensajería con millones de usuarios que necesita sincronizar mensajes en tiempo real entre dispositivos y escalar automáticamente. ¿Qué base de datos de Google Cloud es más adecuada?