SAP-C02

Deep Dive

D2 · Diseño de nuevas soluciones

Almacenamiento avanzado: S3, EBS, EFS y FSx

El SAP-C02 evalúa la selección del almacenamiento correcto para cada workload, incluyendo las características avanzadas de S3 (clases, replicación, Object Lambda), los tipos de EBS, y cuándo usar EFS vs FSx para sistemas de archivos compartidos.

Contenido

S3 avanzado — clases, ciclo de vida y replicación
S3 Performance — Transfer Acceleration y Multipart
EBS — tipos y casos de uso
Amazon EFS — sistema de archivos compartido
Amazon FSx — sistemas de archivos especializados
Árbol de decisión de almacenamiento
Trampas frecuentes del examen

S3 avanzado — clases de almacenamiento y gestión del ciclo de vida

Clase	Latencia recuperación	Costo almac.	Mejor para
S3 Standard	ms	$$$$	Datos de acceso frecuente. Sitios web, apps activas.
S3 Standard-IA	ms	$$$	Acceso infrecuente pero necesita recuperación rápida. Backups recientes.
S3 One Zone-IA	ms	$$	Acceso infrecuente + tolerante a pérdida de AZ. Replicas de datos. 20% más barato que Standard-IA.
S3 Intelligent-Tiering	ms – min	$$$	Patrones de acceso impredecibles. Mueve automáticamente entre tiers sin overhead.
Glacier Instant Retrieval	ms	$$	Archivos médicos, datos de cumplimiento que se acceden raramente pero necesitan ms de latencia.
Glacier Flexible Retrieval	1–12h (Expedited: min)	$	Archivos y backups con acceso ocasional. Expedited para emergencias.
Glacier Deep Archive	12–48h	$ (más barato)	Archivado a largo plazo (7-10 años). Cumplimiento, datos históricos nunca accedidos.
S3 Reduced Redundancy (legacy)	ms	$$$	DEPRECADO — usar Standard-IA. Solo mencionado en preguntas antiguas.

S3 Lifecycle Policies

Transiciones automáticas entre clases y expiración de objetos basadas en tiempo o versiones.

Transición: Standard → Standard-IA (mín 30 días en Standard)
Transición: Standard-IA → Glacier (mín 30 días en Standard-IA)
Expiración: eliminar objetos después de N días
Versiones no-current: archivar o eliminar versiones anteriores
Incomplete multipart uploads: limpiar partes abandonadas (ahorro importante)

S3 Replication

CRR (Cross-Region Replication)Replica objetos automáticamente entre buckets en DIFERENTES regiones. Para DR, reducir latencia para usuarios globales, compliance de datos.

SRR (Same-Region Replication)Replica entre buckets en la MISMA región. Para log aggregation, test/prod sync, compliance que requiere múltiples copias en la misma región.

Replication Time Control (RTC)Garantiza que el 99.99% de los objetos se replican en 15 minutos. Con SLA y métricas CloudWatch. Para RPO estricto.

Batch ReplicationReplica objetos existentes (no solo los nuevos). Para migración inicial o re-sincronización.

S3 Object Lambda — transforma datos al vuelo

S3 Object Lambda intercepta solicitudes GET de S3 y llama a una Lambda function para transformar el objeto antes de devolverlo al solicitante. Sin copias separadas de los datos. Casos de uso: redactar PII (número de tarjeta → ****), convertir formatos (XML → JSON), enriquecer con metadatos de DynamoDB, resize de imágenes al vuelo.

S3 Performance — optimización avanzada

S3 Transfer Acceleration

Acelera uploads hacia S3 usando los edge locations de CloudFront. El cliente sube al edge más cercano, luego el dato viaja por la backbone de AWS (más rápida que internet público) hasta S3.

• Hasta 50-500% más rápido para uploads desde ubicaciones globales
• Endpoint diferente: bucket.s3-accelerate.amazonaws.com
• Costo extra por GB transferido
• Beneficio mayor para distancias >1000 km del bucket

S3 Multipart Upload

Divide objetos grandes en partes que se suben en paralelo. Recomendado para archivos mayores a 100 MB, obligatorio para mayores a 5 GB.

• Hasta 10,000 partes de 5 MB a 5 GB cada una
• Upload de partes en paralelo = mayor throughput
• Retry solo la parte fallida (no el objeto entero)
• S3 consolida las partes tras completar el upload
• Lifecycle policy para limpiar partes incompletas (evita costos)

S3 prefix performance — no es un anti-patrón usar muchos prefixes

S3 escala automáticamente a 3,500 PUT/COPY/POST/DELETE y 5,500 GET/HEAD requests por segundo POR PREFIX. Si tienes un bucket con millones de objetos y necesitas mayor throughput, distribuir los objetos en múltiples prefixes da N × 3,500/5,500 req/seg. La limitación es por prefix, no por bucket.

EBS — tipos de volúmenes para el SAP-C02

Tipo	IOPS máx	Throughput máx	Mejor para
gp3 (SSD general)	16,000 IOPS (independiente de tamaño)	1,000 MB/s	Boot volumes, apps generales, dev/test. Reemplaza gp2. IOPS/throughput configurables independientemente.
gp2 (SSD legacy)	3 IOPS/GB, max 16,000	250 MB/s	Legacy. Migrar a gp3 para menor costo y mayor flexibilidad.
io2 Block Express	256,000 IOPS	4,000 MB/s	Bases de datos críticas que necesitan latencia sub-ms y alta durabilidad (99.9999%).
io1/io2	64,000 IOPS	1,000 MB/s	DBs Oracle, SQL Server, Cassandra con alto IOPS. IOPS provisionados independientes del tamaño.
st1 (HDD throughput)	500 IOPS	500 MB/s	Data warehouses, log processing, streaming. Alto throughput secuencial, bajo costo.
sc1 (HDD cold)	250 IOPS	250 MB/s	Datos de acceso infrecuente. El más barato de EBS. Backups fríos.

EBS Multi-Attach — io1/io2 únicamente

EBS Multi-Attach permite que un volumen io1 o io2 se adjunte a hasta 16 instancias EC2 en la MISMA AZ simultáneamente. La aplicación debe gestionar la concurrencia de escrituras (ej: clustering con Oracle RAC). No sirve para compartir archivos entre instancias — para eso usa EFS.

Amazon EFS — sistema de archivos NFS compartido

Características clave

NFS compartido entre miles de instancias EC2 y contenedores ECS/EKS simultáneamente
Multi-AZ: datos distribuidos en múltiples AZs automáticamente
Elástico: escala automáticamente de GB a PB sin provisioning
Soporta: Linux únicamente (POSIX file system). Windows no.
Performance modes: General Purpose (latencia baja) y Max I/O (throughput alto, latencia mayor)
Throughput modes: Bursting (escala con tamaño del FS), Enhanced/Provisioned (throughput fijo)
EFS Infrequent Access (IA): tier de bajo costo para archivos raramente accedidos

EFS vs EBS — cuándo usar cada uno

¿Múltiples instancias EC2 acceden al mismo filesystem?

→ EFS — compartido multi-instancia nativo

¿Sistema operativo Windows o aplicaciones Windows?

→ EBS o FSx for Windows (EFS solo Linux)

¿Boot volume de una instancia EC2?

→ EBS — EFS no puede ser boot volume

¿Máximo rendimiento de disco (base de datos OLTP)?

→ EBS io2 — menor latencia y mayor IOPS que EFS

¿Home directories compartidos en múltiples AZs?

→ EFS — acceso desde cualquier AZ de la región

¿Contenedores ECS Fargate con estado compartido?

→ EFS — único almacenamiento compartido para Fargate

Amazon FSx — sistemas de archivos especializados

FSx for Windows File Server

SMB/CIFS gestionado, compatible con Windows nativo. Integración con Active Directory. Para apps Windows que requieren file shares (DFS, SQL Server log shipping, home directories Windows).

• SMB protocol, NTFS filesystem
• AD integration nativa (AWS Managed AD o on-prem AD)
• DFS replication support
• Multi-AZ con standby disponible

FSx for Lustre

Sistema de archivos de alto rendimiento para HPC, ML training y procesamiento de video. Integración nativa con S3 para lazy loading de datos.

• Sub-ms latencia, cientos de GB/s throughput
• Integración S3: datos en S3 aparecen como archivos
• POSIX compliant (Linux)
• SSD o HDD según requisito de precio/performance

FSx for NetApp ONTAP

Funcionalidades ONTAP gestionadas en AWS: NFS, SMB, iSCSI. Migración de workloads NetApp on-premises sin cambios. Multi-AZ nativo.

• NFS, SMB y iSCSI en el mismo filesystem
• SnapMirror para replicación cross-region
• FlexClone para clonado instantáneo de volúmenes
• Ideal para workloads NetApp on-premises → AWS

FSx for OpenZFS

OpenZFS gestionado. NFS v3/v4 de alta disponibilidad con snapshotting nativo, compresión y deduplicación. Para workloads Linux/Unix que usan ZFS.

• Snapshots instantáneos y clones
• Compresión y deduplicación transparente
• NFS v3/v4 protocol
• Migración de workloads ZFS on-premises

Árbol de decisión de almacenamiento

Q1.

¿Objetos sin estructura de directorio (imágenes, backups, data lake)?

→ S3

Q2.

¿Disco para una sola instancia EC2 (OS, base de datos, app data)?

→ EBS (gp3 para general, io2 para alto IOPS)

Q3.

¿Filesystem NFS compartido entre múltiples Linux EC2/ECS?

→ EFS

Q4.

¿SMB/CIFS para apps Windows o Active Directory?

→ FSx for Windows File Server

Q5.

¿HPC, ML training, máximo throughput de filesystem?

→ FSx for Lustre

Q6.

¿Migrar workloads NetApp ONTAP on-premises a AWS?

→ FSx for NetApp ONTAP

Q7.

¿Archivado de datos de acceso muy infrecuente (7-10 años)?

→ S3 Glacier Deep Archive

Trampas frecuentes del examen

Trampa: "EFS funciona con Windows EC2"

Realidad: FALSO. EFS solo soporta Linux/Unix (protocolo NFS). Para sistemas de archivos compartidos en Windows, usa FSx for Windows File Server.

Trampa: "S3 Standard-IA cobra por acceso — nunca usarlo para datos frecuentes"

Realidad: Correcto que cobra por retrieval, pero Standard-IA es perfecto para datos que se acceden menos de una vez al mes. Si se accede más frecuentemente, Standard es más barato en total.

Trampa: "EBS puede compartirse entre instancias en diferentes AZs"

Realidad: FALSO. EBS es zonal — solo puede adjuntarse a instancias en la misma AZ. Para compartir entre AZs usa EFS. Para compartir entre instancias en la misma AZ usa EBS Multi-Attach (solo io1/io2).

Trampa: "Glacier Deep Archive es igual que Glacier pero más barato solo en almacenamiento"

Realidad: La diferencia clave es el tiempo de recuperación: Glacier Instant Retrieval = ms, Glacier Flexible = 1-12h, Glacier Deep Archive = 12-48h. No es solo diferencia de precio — es diferencia funcional.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una empresa tiene una aplicación de renderizado de video que corre en 500 instancias EC2 Linux en un Auto Scaling Group. Todas las instancias necesitan acceso simultáneo de lectura/escritura a los mismos archivos de proyecto de video (varios TB). Las instancias se crean y destruyen frecuentemente. ¿Qué solución de almacenamiento es la más apropiada?

Inicia sesión para llevar tu progreso.

AnteriorAlta disponibilidad y escalado: ELB, Auto Scaling y EC2 avanzadoDiseño de nuevas soluciones SiguienteNetworking avanzado: CloudFront, VPC Endpoints y Enhanced NetworkingDiseño de nuevas soluciones