SAP-C02

Deep Dive

Todas las guías
Practicar ahora
D3 · Mejora continua de soluciones

Confiabilidad y mejora continua: AWS Health, Chaos Engineering y Access Analyzer

El dominio D3 del SAP-C02 evalúa la mejora continua de arquitecturas existentes. La confiabilidad va más allá de Multi-AZ — implica probar activamente los fallos, analizar los modos de fallo, y mejorar continuamente la postura de seguridad con Access Analyzer y Permission Boundaries.

Icon-Architecture/48/Arch_AWS-Backup_48

Pilar de Confiabilidad — Well-Architected Framework

El pilar de Confiabilidad del Well-Architected Framework define cómo diseñar sistemas que se recuperen de fallos, escalen dinámicamente y entreguen la capacidad correcta para satisfacer la demanda.

🏗️

Foundations

Gestión de límites de servicio (quotas), planificación de capacidad de red. Establecer límites de servicio apropiados antes de que se necesiten.

  • Solicitar aumentos de quota proactivamente
  • Monitorear acercamiento a límites con Trusted Advisor
  • Design para múltiples AZs desde el inicio
⚙️

Workload Architecture

Diseñar para HA y recuperación desde el diseño inicial. Circuit breakers, retry con backoff exponencial, bulkheads.

  • Eliminar single points of failure
  • Implementar health checks en todos los componentes
  • Diseñar para graceful degradation
🔄

Change Management

Gestionar cambios en las cargas de trabajo con pruebas y rollback automatizados. Auto Scaling, deployment sin downtime.

  • Blue/Green o Canary deployments
  • Feature flags para rollouts seguros
  • Runbooks para procedimientos de cambio

Patrones de resiliencia de software para el SAP-C02

Retry con Backoff Exponencial

Reintentar operaciones fallidas con espera creciente + jitter aleatorio. Evita el "thundering herd" problem.

Circuit Breaker

Después de N fallos consecutivos, "abrir" el circuito y no enviar más requests hasta que el servicio se recupere.

Bulkhead

Aislar recursos por función. Si el servicio de búsqueda colapsa, no afecta al checkout. Limits de threads/conexiones por servicio.

Timeout

Nunca esperar infinitamente. Definir timeouts a todas las llamadas externas. Fail fast es preferible a esperar.

Análisis de modos de fallo — identificar Single Points of Failure

FMEA (Failure Mode and Effects Analysis) es el proceso de identificar sistemáticamente cómo puede fallar cada componente y qué impacto tendría. En AWS, se traduce en revisar la arquitectura buscando SPOFs.

ComponenteModo de falloMitigación AWS
EC2 single instanceLa instancia falla o el host subyacente fallaASG con mínimo 2 instancias en 2 AZs + ALB
RDS single-AZFallo de hardware → horas de downtime para restaurarRDS Multi-AZ — failover automático en < 1 min
NAT Gateway en una AZSi esa AZ falla, subnets privadas en otras AZs pierden internetUna NAT Gateway por AZ usada
Lambda concurrency throttlingSpike de tráfico agota la concurrencia disponibleReserved Concurrency + SQS buffer para suavizar picos
DynamoDB hot partitionPartition recibe todas las escrituras → throttlingRediseñar partition key con más cardinalidad o write sharding
S3 single bucket regionInterrupción de la región → datos inaccesiblesCRR a bucket en región secundaria para DR
DNS con TTL altoSi ALB/endpoint cambia, clientes en caché van al endpoint incorrectoTTL bajo en Route 53 para registros críticos (60-300s)
Icon-Architecture/48/Arch_AWS-Health-Dashboard_48

AWS Health — visibilidad de eventos de servicio

Tipos de eventos de AWS Health

Service Events

Interrupciones y degradaciones de servicios AWS que afectan a TODOS los clientes en una región. Ej: "EC2 API degraded in us-east-1". Visible en AWS Service Health Dashboard público.

Account Events

Eventos que afectan específicamente a TU cuenta: instancias EC2 programadas para retirement, certificados SSL próximos a vencer, RIs expirando. Solo visible en tu Personal Health Dashboard.

Scheduled Changes

Mantenimientos programados de AWS que impactarán tus recursos. Ej: "tu instancia en este host será migrada el día X". Debes actuar antes de la fecha.

Automatización con AWS Health + EventBridge

Los eventos de AWS Health publican en EventBridge, permitiendo respuestas automáticas.

Instancia programada para retirementLambda: snapshot automático + terminate + launch nueva instancia
RDS maintenance scheduledLambda: notificar al equipo de DBA + bloquear changes en ese período
Spot interruption warningLambda: draining de conexiones, checkpoint de trabajo en S3
Certificate expiringLambda: trigger de renovación ACM o alerta a equipo de seguridad

Ingeniería del Caos en AWS — probar fallos antes de que ocurran

La ingeniería del caos inyecta fallos controlados en producción (o pre-producción) para descubrir debilidades antes de que ocurran en situaciones reales. AWS Fault Injection Service (FIS) es el servicio nativo para esto.

AWS Fault Injection Service (FIS)

  • Termina instancias EC2 aleatoriamente (como Chaos Monkey)
  • Inyecta latencia en llamadas a la API
  • Fuerza failover de RDS Multi-AZ
  • Interrumpe instancias Spot
  • Inyecta errores HTTP en respuestas de ALB
  • Drena nodos de EKS
  • Controles de seguridad: stop conditions automáticas si las métricas se degradan demasiado

AWS Resilience Hub + Game Days

  • AWS Resilience Hub: define y valida objetivos de RTO/RPO antes de ejecutar experimentos
  • Game Day: ejercicio planificado donde se simula un desastre real para probar los runbooks
  • DRP (Disaster Recovery Plan) testing: ejecutar failover a la región DR periódicamente
  • Runbooks: documentación paso a paso de cómo responder a cada tipo de fallo
  • Post-mortem sin culpas: analizar qué falló y mejorar los sistemas, no buscar culpables
Icon-Architecture/48/Arch_AWS-Identity-and-Access-Management_48

IAM Access Analyzer y Permission Boundaries

IAM Access Analyzer

Analiza políticas de recursos (S3 buckets, IAM roles, KMS keys, Lambda, SQS, Secrets Manager) para identificar acceso externo no intencionado fuera de la trust zone definida.

External Access FindingsDetecta buckets S3, roles IAM, o KMS keys que permiten acceso desde fuera de la cuenta o la organización.
Unused Access FindingsIdentifica roles, políticas, permisos y credenciales que no se han usado en 90+ días. Para aplicar mínimo privilegio activo.
Custom Policy ValidationValida políticas IAM en busca de errores de sintaxis, permisos demasiado amplios, y sugiere correcciones.
Zona de confianzaDefines la zona (cuenta o org). Access desde dentro = OK. Access desde fuera = finding a revisar.

Permission Boundaries

Permission Boundaries son políticas IAM que definen el máximo de permisos que una entidad IAM puede tener, independientemente de qué políticas se le adjunten después.

Caso de uso clave del examen

"Los developers pueden crear IAM roles para sus Lambda functions, pero no pueden escalar sus propios permisos más allá de lo que ellos mismos tienen."

→ Permission Boundary que limita los roles que los devs pueden crear.

  • La Permission Boundary NO otorga permisos — solo los limita
  • Un usuario con AdministratorAccess + Permission Boundary de S3 solo puede hacer S3
  • Se puede requerir en SCPs: "iam:CreateRole solo si incluye este permission boundary"
  • Para delegar la creación de roles sin escalada de privilegios
  • Icon-Architecture/48/Arch_AWS-Backup_48

    Estrategias de backup a escala organizacional

    Para el SAP-C02, el backup no es solo "crear snapshots" — es una estrategia coordinada de retención, prueba de recuperación, y compliance. AWS Backup con Organizations es el patrón enterprise.

    EstrategiaCómo implementarPara qué
    3-2-1 Rule3 copias, 2 medios diferentes, 1 offsite. En AWS: original + snapshot en misma región + copia cross-region.Cumplimiento estándar de backup best practice
    Immutable backupsAWS Backup Vault Lock (WORM). Los backups no pueden eliminarse antes de expirar.Protección anti-ransomware y anti-manipulación
    Cross-account backupsVault en cuenta centralizada de backup. Copias de todas las cuentas miembro van al vault central.Proteger backups de eliminación accidental o maliciosa en la cuenta fuente
    Testing de restauraciónAWS Backup Restore Testing: automatiza pruebas de restauración de backups periódicamente.Garantizar que los backups son realmente recuperables
    Tag-based backup policiesBackup Plan que selecciona recursos por tag (Environment=Production). Auto-incluye nuevos recursos con ese tag.Governance: garantizar que todos los recursos de producción tienen backup
    Icon-Architecture/48/Arch_AWS-Backup_48

    Trampas frecuentes del examen

    Trampa: "IAM Access Analyzer y IAM Credential Report hacen lo mismo"

    Realidad: Diferentes. Access Analyzer analiza POLÍTICAS de recursos para encontrar acceso no intencionado desde fuera de la trust zone. Credential Report lista las credenciales de usuarios IAM y su estado (MFA, última vez usada, contraseña expirada).

    Trampa: "Permission Boundaries dan permisos adicionales"

    Realidad: FALSO. Permission Boundaries SOLO limitan los permisos máximos posibles. No otorgan ningún permiso por sí mismos. El permiso real resulta de la INTERSECCIÓN de la Permission Boundary y las políticas de identidad.

    Trampa: "AWS FIS solo funciona en entornos de test/staging"

    Realidad: AWS FIS puede ejecutar experimentos en producción (con las salvaguardas adecuadas: stop conditions, monitoring). De hecho, el propósito principal es probar en producción para descubrir fallos reales que no se manifestarían en entornos de test.

    ¿Entendiste este tema?

    Pon a prueba lo que acabas de aprender

    Un equipo de plataforma quiere permitir que los equipos de desarrollo creen sus propios roles IAM para funciones Lambda, pero necesitan garantizar que esos roles no tengan más permisos que los que los propios developers tienen. También quieren detectar automáticamente si algún role IAM creado por developers permite acceso desde cuentas externas. ¿Qué combinación de servicios implementa AMBOS requisitos?

    Inicia sesión para llevar tu progreso.