CDL

Deep Dive

Practicar ahora
D2 · Exploración de datos con Google Cloud

Almacenamiento y bases de datos en Google Cloud

Guía completa para elegir el servicio de almacenamiento correcto: Cloud Storage, Cloud SQL, Firestore, Bigtable, Spanner y más.

El mapa completo de almacenamiento

Regla de oro para el CDL: primero pregúntate ¿qué tipo de datos? (objetos, relacional, NoSQL, analítica) y luego ¿a qué escala? (pequeña/mediana vs petabytes).

ServicioTipoEscalaMejor para
Cloud StorageObjetosIlimitadaArchivos, imágenes, backups, data lakes, contenido estático
Cloud SQLSQL relacionalTBApps web OLTP con MySQL, PostgreSQL o SQL Server
Cloud SpannerSQL global distribuidoPetabytesSQL a escala global con consistencia fuerte y disponibilidad 99.999%
AlloyDBPostgreSQL enhancedTBCargas OLTP + OLAP en PostgreSQL que necesitan más rendimiento
FirestoreNoSQL documentosTBApps móviles/web con datos en tiempo real y sync
BigtableNoSQL columnarPetabytesSeries temporales, IoT, AdTech a escala masiva con latencia sub-10ms
MemorystoreCaché en memoriaGB-TBRedis/Memcached administrados para caché de sesiones y queries
BigQueryData warehouse analíticoPetabytesAnálisis de datos históricos, reportes, ML con SQL

Cloud Storage en profundidad

Las 4 clases de almacenamiento

Clase

Standard

SLA

99.99%

Acceso

Ilimitado sin cargo extra

Uso típico

Datos activos: imágenes de apps, sitios web, datos frecuentemente accedidos

Clase

Nearline

SLA

99.95%

Acceso

Mín 30 días, cobra por acceso

Uso típico

Backups mensuales, datos accedidos ~1 vez al mes

Clase

Coldline

SLA

99.95%

Acceso

Mín 90 días, cobra por acceso

Uso típico

Archivado trimestral, datos de DR raramente accedidos

Clase

Archive

SLA

99.95%

Acceso

Mín 365 días, cobra por acceso

Uso típico

Archivado a largo plazo: auditoría, cumplimiento, datos históricos

Trampas del examen sobre Cloud Storage

  • Durabilidad (99.999999999%) ≠ disponibilidad. La disponibilidad varía por clase (Standard=99.99%, otras=99.95%).
  • Object Lifecycle Management mueve objetos entre clases automáticamente — no hay downtime ni cambio de URL.
  • Cloud Storage ≠ sistema de archivos. Es almacenamiento de OBJETOS. Para archivos compartidos tipo NFS usa Filestore.
  • Multi-region (us, eu, asia) tiene mayor disponibilidad que regional pero es más caro y los datos están distribuidos geográficamente.

Bases de datos: comparativa detallada

Cloud SQL vs Cloud Spanner

DimensiónCloud SQLCloud Spanner
TecnologíaMySQL, PostgreSQL, SQL Server estándarMotor propietario de Google con API SQL
EscalaEscala vertical (hasta 96 vCPU, 624 GB RAM)Escala horizontal ilimitada (splits automáticos)
DisponibilidadAlta disponibilidad: 99.95% con HA regional99.999% multi-regional (5 nueves)
ConsistenciaFuerte en una zona/regiónFuerte globalmente con TrueTime
Latencia writesBaja (milisegundos)Mayor (~5-20ms) por sincronización global
CostoDesde $15/mesDesde $65/mes por nodo
Mejor paraApps web/móviles estándar, CMS, e-commerceApps globales: banca, gaming, inventario en tiempo real

Firestore vs Bigtable

DimensiónFirestoreBigtable
ModeloDocumentos JSON anidados con coleccionesTabla ancha: filas + columnas (sparse)
EscalaTB (automático)Petabytes (horizontal)
LatenciaMilisegundos (consultas en tiempo real)Sub-10ms para lecturas/escrituras
QueriesQueries complejas con índices compuestosSolo por row key y scan de rangos (sin SQL)
Sync RTSí — listeners en tiempo real para clientesNo — procesamiento batch/streaming
Mejor paraApps móviles/web con usuarios finales, perfiles, configsIoT (millones de dispositivos), series temporales, AdTech

El valor de los datos: bases conceptuales

Base de datos

Almacén estructurado de datos operacionales de una aplicación. Optimizada para lectura/escritura de registros individuales en tiempo real. Ej: Cloud SQL, Firestore, Bigtable.

Data Warehouse

Almacén de datos históricos estructurados para análisis. Optimizado para consultas analíticas sobre grandes volúmenes. Los datos se cargan de múltiples fuentes. Ej: BigQuery.

Data Lake

Repositorio que almacena datos en su forma cruda (estructurados y no estructurados) sin procesamiento previo. Flexibilidad máxima. Ej: Cloud Storage como data lake.

Tipo de datoDescripciónEjemplos
Datos estructuradosOrganizados en tablas con filas y columnas. Esquema fijo y predefinido.Pedidos, clientes, transacciones bancarias, inventario.
Datos semiestructuradosTienen estructura pero flexible. Sin esquema rígido. Formatos: JSON, XML, CSV.Logs de aplicaciones, datos de APIs, configuraciones.
Datos no estructuradosSin esquema. La gran mayoría de datos del mundo (80%+).Imágenes, videos, documentos PDF, audios, emails, código.

AlloyDB — PostgreSQL de alto rendimiento

AlloyDB for PostgreSQL es la base de datos relacional de alto rendimiento de Google Cloud, compatible con PostgreSQL pero construida sobre una arquitectura distribuida propia. Combina OLTP (transaccional) con capacidades analíticas OLAP — elimina la necesidad de mantener bases de datos separadas para cada carga.

Para el examen CDL: AlloyDB aparece cuando el escenario menciona PostgreSQL que necesita más rendimiento del que Cloud SQL puede ofrecer, o cuando se requieren cargas mixtas OLTP+OLAP.

Características clave

4x más rápido que PostgreSQL estándar

Arquitectura de almacenamiento distribuido que separa cómputo de almacenamiento — similar a Aurora en AWS.

Compatible 100% con PostgreSQL

Migración desde Cloud SQL (PostgreSQL) o on-premises PostgreSQL sin cambios de código en la aplicación.

OLTP + OLAP en una sola BD

Columnar engine integrado para queries analíticas sin afectar el rendimiento transaccional. No necesitas BigQuery para análisis en tiempo real sobre datos operacionales.

IA integrada

AlloyDB AI: embeddings vectoriales nativos y búsqueda vectorial directamente en PostgreSQL. Ideal para apps de RAG y búsqueda semántica.

AlloyDB vs Cloud SQL vs Cloud Spanner

AspectoCloud SQLAlloyDBCloud Spanner
MotorMySQL / PG / SQL ServerPostgreSQL enhancedSQL propio Google
EscalaTB (vertical)TB (distribuido)Petabytes (global)
OLAP integradoNoNo
GlobalNoNo (regional)Sí (multi-región)
PrecioBajoMedio-AltoAlto

Regla para el examen

Si el escenario dice "PostgreSQL" + "alto rendimiento" o "analítica en tiempo real sobre datos operacionales" → AlloyDB. Si solo dice "PostgreSQL" sin requisitos extremos → Cloud SQL.

Gobernanza de datos (Data Governance)

La gobernanza de datos es el conjunto de políticas, procesos y herramientas para garantizar que los datos sean accesibles, seguros, de alta calidad y usados de forma ética y conforme a regulaciones.

Calidad de datos

Datos precisos, completos, consistentes y actualizados. Datos de baja calidad llevan a decisiones incorrectas.

Catálogo de datos

Inventario de qué datos existen, dónde están, qué significan y quién puede accederlos. Dataplex en GCP.

Linaje de datos

Trazar el origen y transformaciones de un dato desde su fuente hasta el reporte final. Clave para auditorías.

Privacidad y compliance

Cumplir con GDPR, LGPD, HIPAA: clasificar datos sensibles, controlar acceso, anonimizar cuando corresponde.

Dataplex: gobernanza de datos en GCP

Dataplex es el servicio de Google Cloud para gestión inteligente de datos a escala. Permite organizar datos distribuidos en Cloud Storage y BigQuery en "lakes" lógicos, aplicar políticas de seguridad centralizadas, catalogar metadatos automáticamente y monitorear la calidad de datos con reglas.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una startup está construyendo una app móvil de mensajería con millones de usuarios que necesita sincronizar mensajes en tiempo real entre dispositivos y escalar automáticamente. ¿Qué base de datos de Google Cloud es más adecuada?