SAP-C02

Deep Dive

D3 · Mejora continua de soluciones

Confiabilidad y mejora continua: AWS Health, Chaos Engineering y Access Analyzer

El dominio D3 del SAP-C02 evalúa la mejora continua de arquitecturas existentes. La confiabilidad va más allá de Multi-AZ — implica probar activamente los fallos, analizar los modos de fallo, y mejorar continuamente la postura de seguridad con Access Analyzer y Permission Boundaries.

Contenido

Pilar de Confiabilidad del Well-Architected
Análisis de modos de fallo (FMEA)
AWS Health — eventos de servicio y cuenta
Ingeniería del Caos en AWS
IAM Access Analyzer y Permission Boundaries
Estrategias de backup a escala
Trampas frecuentes del examen

Pilar de Confiabilidad — Well-Architected Framework

El pilar de Confiabilidad del Well-Architected Framework define cómo diseñar sistemas que se recuperen de fallos, escalen dinámicamente y entreguen la capacidad correcta para satisfacer la demanda.

🏗️

Foundations

Gestión de límites de servicio (quotas), planificación de capacidad de red. Establecer límites de servicio apropiados antes de que se necesiten.

• Solicitar aumentos de quota proactivamente
• Monitorear acercamiento a límites con Trusted Advisor
• Design para múltiples AZs desde el inicio

⚙️

Workload Architecture

Diseñar para HA y recuperación desde el diseño inicial. Circuit breakers, retry con backoff exponencial, bulkheads.

• Eliminar single points of failure
• Implementar health checks en todos los componentes
• Diseñar para graceful degradation

🔄

Change Management

Gestionar cambios en las cargas de trabajo con pruebas y rollback automatizados. Auto Scaling, deployment sin downtime.

• Blue/Green o Canary deployments
• Feature flags para rollouts seguros
• Runbooks para procedimientos de cambio

Patrones de resiliencia de software para el SAP-C02

Retry con Backoff Exponencial

Reintentar operaciones fallidas con espera creciente + jitter aleatorio. Evita el "thundering herd" problem.

Circuit Breaker

Después de N fallos consecutivos, "abrir" el circuito y no enviar más requests hasta que el servicio se recupere.

Bulkhead

Aislar recursos por función. Si el servicio de búsqueda colapsa, no afecta al checkout. Limits de threads/conexiones por servicio.

Timeout

Nunca esperar infinitamente. Definir timeouts a todas las llamadas externas. Fail fast es preferible a esperar.

Análisis de modos de fallo — identificar Single Points of Failure

FMEA (Failure Mode and Effects Analysis) es el proceso de identificar sistemáticamente cómo puede fallar cada componente y qué impacto tendría. En AWS, se traduce en revisar la arquitectura buscando SPOFs.

Componente	Modo de fallo	Mitigación AWS
EC2 single instance	La instancia falla o el host subyacente falla	ASG con mínimo 2 instancias en 2 AZs + ALB
RDS single-AZ	Fallo de hardware → horas de downtime para restaurar	RDS Multi-AZ — failover automático en < 1 min
NAT Gateway en una AZ	Si esa AZ falla, subnets privadas en otras AZs pierden internet	Una NAT Gateway por AZ usada
Lambda concurrency throttling	Spike de tráfico agota la concurrencia disponible	Reserved Concurrency + SQS buffer para suavizar picos
DynamoDB hot partition	Partition recibe todas las escrituras → throttling	Rediseñar partition key con más cardinalidad o write sharding
S3 single bucket region	Interrupción de la región → datos inaccesibles	CRR a bucket en región secundaria para DR
DNS con TTL alto	Si ALB/endpoint cambia, clientes en caché van al endpoint incorrecto	TTL bajo en Route 53 para registros críticos (60-300s)

AWS Health — visibilidad de eventos de servicio

Tipos de eventos de AWS Health

Service Events

Interrupciones y degradaciones de servicios AWS que afectan a TODOS los clientes en una región. Ej: "EC2 API degraded in us-east-1". Visible en AWS Service Health Dashboard público.

Account Events

Eventos que afectan específicamente a TU cuenta: instancias EC2 programadas para retirement, certificados SSL próximos a vencer, RIs expirando. Solo visible en tu Personal Health Dashboard.

Scheduled Changes

Mantenimientos programados de AWS que impactarán tus recursos. Ej: "tu instancia en este host será migrada el día X". Debes actuar antes de la fecha.

Automatización con AWS Health + EventBridge

Los eventos de AWS Health publican en EventBridge, permitiendo respuestas automáticas.

Instancia programada para retirementLambda: snapshot automático + terminate + launch nueva instancia

RDS maintenance scheduledLambda: notificar al equipo de DBA + bloquear changes en ese período

Spot interruption warningLambda: draining de conexiones, checkpoint de trabajo en S3

Certificate expiringLambda: trigger de renovación ACM o alerta a equipo de seguridad

Ingeniería del Caos en AWS — probar fallos antes de que ocurran

La ingeniería del caos inyecta fallos controlados en producción (o pre-producción) para descubrir debilidades antes de que ocurran en situaciones reales. AWS Fault Injection Service (FIS) es el servicio nativo para esto.

AWS Fault Injection Service (FIS)

Termina instancias EC2 aleatoriamente (como Chaos Monkey)
Inyecta latencia en llamadas a la API
Fuerza failover de RDS Multi-AZ
Interrumpe instancias Spot
Inyecta errores HTTP en respuestas de ALB
Drena nodos de EKS
Controles de seguridad: stop conditions automáticas si las métricas se degradan demasiado

AWS Resilience Hub + Game Days

AWS Resilience Hub: define y valida objetivos de RTO/RPO antes de ejecutar experimentos
Game Day: ejercicio planificado donde se simula un desastre real para probar los runbooks
DRP (Disaster Recovery Plan) testing: ejecutar failover a la región DR periódicamente
Runbooks: documentación paso a paso de cómo responder a cada tipo de fallo
Post-mortem sin culpas: analizar qué falló y mejorar los sistemas, no buscar culpables

IAM Access Analyzer y Permission Boundaries

IAM Access Analyzer

Analiza políticas de recursos (S3 buckets, IAM roles, KMS keys, Lambda, SQS, Secrets Manager) para identificar acceso externo no intencionado fuera de la trust zone definida.

External Access FindingsDetecta buckets S3, roles IAM, o KMS keys que permiten acceso desde fuera de la cuenta o la organización.

Unused Access FindingsIdentifica roles, políticas, permisos y credenciales que no se han usado en 90+ días. Para aplicar mínimo privilegio activo.

Custom Policy ValidationValida políticas IAM en busca de errores de sintaxis, permisos demasiado amplios, y sugiere correcciones.

Zona de confianzaDefines la zona (cuenta o org). Access desde dentro = OK. Access desde fuera = finding a revisar.

Permission Boundaries

Permission Boundaries son políticas IAM que definen el máximo de permisos que una entidad IAM puede tener, independientemente de qué políticas se le adjunten después.

Caso de uso clave del examen

"Los developers pueden crear IAM roles para sus Lambda functions, pero no pueden escalar sus propios permisos más allá de lo que ellos mismos tienen."

→ Permission Boundary que limita los roles que los devs pueden crear.

La Permission Boundary NO otorga permisos — solo los limita

Un usuario con AdministratorAccess + Permission Boundary de S3 solo puede hacer S3

Se puede requerir en SCPs: "iam:CreateRole solo si incluye este permission boundary"

Para delegar la creación de roles sin escalada de privilegios

Estrategias de backup a escala organizacional

Para el SAP-C02, el backup no es solo "crear snapshots" — es una estrategia coordinada de retención, prueba de recuperación, y compliance. AWS Backup con Organizations es el patrón enterprise.

Estrategia	Cómo implementar	Para qué
3-2-1 Rule	3 copias, 2 medios diferentes, 1 offsite. En AWS: original + snapshot en misma región + copia cross-region.	Cumplimiento estándar de backup best practice
Immutable backups	AWS Backup Vault Lock (WORM). Los backups no pueden eliminarse antes de expirar.	Protección anti-ransomware y anti-manipulación
Cross-account backups	Vault en cuenta centralizada de backup. Copias de todas las cuentas miembro van al vault central.	Proteger backups de eliminación accidental o maliciosa en la cuenta fuente
Testing de restauración	AWS Backup Restore Testing: automatiza pruebas de restauración de backups periódicamente.	Garantizar que los backups son realmente recuperables
Tag-based backup policies	Backup Plan que selecciona recursos por tag (Environment=Production). Auto-incluye nuevos recursos con ese tag.	Governance: garantizar que todos los recursos de producción tienen backup

Trampas frecuentes del examen

Trampa: "IAM Access Analyzer y IAM Credential Report hacen lo mismo"

Realidad: Diferentes. Access Analyzer analiza POLÍTICAS de recursos para encontrar acceso no intencionado desde fuera de la trust zone. Credential Report lista las credenciales de usuarios IAM y su estado (MFA, última vez usada, contraseña expirada).

Trampa: "Permission Boundaries dan permisos adicionales"

Realidad: FALSO. Permission Boundaries SOLO limitan los permisos máximos posibles. No otorgan ningún permiso por sí mismos. El permiso real resulta de la INTERSECCIÓN de la Permission Boundary y las políticas de identidad.

Trampa: "AWS FIS solo funciona en entornos de test/staging"

Realidad: AWS FIS puede ejecutar experimentos en producción (con las salvaguardas adecuadas: stop conditions, monitoring). De hecho, el propósito principal es probar en producción para descubrir fallos reales que no se manifestarían en entornos de test.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Un equipo de plataforma quiere permitir que los equipos de desarrollo creen sus propios roles IAM para funciones Lambda, pero necesitan garantizar que esos roles no tengan más permisos que los que los propios developers tienen. También quieren detectar automáticamente si algún role IAM creado por developers permite acceso desde cuentas externas. ¿Qué combinación de servicios implementa AMBOS requisitos?

Inicia sesión para llevar tu progreso.

AnteriorOptimización de costos: Compute Optimizer, RI/SP y Cost ExplorerMejora continua de soluciones SiguienteLas 7 Rs: estrategias de migración y herramientas AWSMigración y modernización