La observabilidad es la capacidad de entender el estado interno de un sistema a partir de sus outputs externos. En el SAP-C02, las preguntas de observabilidad van más allá de CloudWatch básico — evalúan arquitecturas de monitoreo completas para sistemas distribuidos a escala.
Contenido
Métricas
Datos numéricos agregados en el tiempo. ¿Cuánto? ¿Qué tan rápido? ¿Cuántos errores?
Logs
Registros de eventos con contexto completo. ¿Qué pasó exactamente y cuándo?
Trazas
Seguimiento de requests a través de múltiples servicios. ¿Dónde está la latencia?
Métricas avanzadas
CloudWatch Logs avanzado
Container Insights
Recopila métricas y logs de contenedores en ECS, EKS y Kubernetes. Agrega datos a nivel de cluster, nodo, pod y contenedor individual.
Lambda Insights
Monitoreo de rendimiento avanzado para funciones Lambda. Diagnostica problemas de duración, throttling y errores de memoria.
X-Ray genera un mapa visual de tu arquitectura de microservicios mostrando cómo los requests fluyen entre servicios, dónde está la latencia y qué errores ocurren. Esencial para depurar sistemas distribuidos.
Conceptos clave de X-Ray
Integración con servicios AWS
Lambda
Nativo — activa Active Tracing en la función
API Gateway
Nativo — activa X-Ray Tracing en el stage
ECS/EC2
Requiere X-Ray daemon como sidecar o daemon
EKS
ADOT Collector como DaemonSet o sidecar
App Mesh
Envoy sidecar genera trazas automáticamente
Elastic Beanstalk
Nativo — configurar en .ebextensions
CloudWatch ServiceLens
ServiceLens combina X-Ray traces, CloudWatch metrics y CloudWatch logs en una vista unificada. Genera un Service Map que muestra la salud de cada servicio con métricas de latencia, errores y tasa de requests — sin necesidad de navegar entre múltiples consolas.
Evidently permite lanzar features gradualmente (feature flags) y medir su impacto con experimentos A/B. Evalúa métricas clave (conversión, latencia, errores) para decidir si un feature debe rollout completo o rollback.
Feature Flags
Habilita features para un % de usuarios sin redesplegar código. Permite canary releases controladas.
A/B Experiments
Divide el tráfico entre variantes y mide el impacto estadístico en métricas de negocio definidas.
Overrides
Fuerza una variante específica para usuarios internos o cuentas de testing.
Segmentación
Muestra features según atributos del usuario: región, plan, versión de app.
| Tipo de evento | Qué registra | Costo | Caso de uso |
|---|---|---|---|
| Management Events | Operaciones de control plane: crear/modificar/eliminar recursos | Free (primero trail) | Auditoría de cambios de infraestructura, "quién creó este recurso" |
| Data Events | Operaciones sobre datos: S3 GetObject, Lambda Invoke, DynamoDB GetItem | De pago | Auditoría de acceso a datos sensibles, forensics post-incident |
| Insights Events | Actividad inusual: spike de errores de IAM, llamadas inusuales a APIs | De pago | Detección de comportamientos anómalos en llamadas a la API |
CloudTrail Organization Trail
Un Organization Trail creado en la Management Account registra eventos de todas las cuentas miembro en un S3 bucket centralizado. Las cuentas miembro no pueden modificar ni deshabilitar el trail. Garantiza auditoría completa e inmutable de toda la organización.
Trampa: "X-Ray registra todos los requests por defecto"
Realidad: FALSO. X-Ray usa sampling — por defecto registra 5% de requests + 1 request/seg. Para debugging completo se puede aumentar la tasa de sampling.
Trampa: "CloudWatch y CloudTrail son equivalentes"
Realidad: Son completamente diferentes. CloudWatch monitorea el rendimiento (métricas, logs de apps). CloudTrail audita las llamadas a la API de AWS (quién hizo qué con los recursos).
Trampa: "Container Insights funciona sin configuración adicional en EKS"
Realidad: FALSO. En EKS requiere desplegar el CloudWatch Agent (o Fluent Bit) como DaemonSet. En ECS con Fargate requiere una sidecar container con CloudWatch Agent.
¿Entendiste este tema?
Pon a prueba lo que acabas de aprender
Una empresa tiene una arquitectura de microservicios con 15 servicios en Lambda y ECS. Los usuarios reportan que algunas peticiones tardan más de 10 segundos de forma intermitente. El equipo de operaciones no puede determinar en qué servicio específico está la latencia. ¿Qué servicio AWS resuelve directamente este problema?
Inicia sesión para llevar tu progreso.