AZ-104

Deep Dive

Practicar ahora
D5 · Monitoreo

Alertas y Notificaciones

Las alertas de Azure Monitor notifican cuando hay condiciones de interés en tus recursos — umbrales de métrica, cambios de estado o eventos específicos en logs. El AZ-104 evalúa la creación y configuración de alert rules, tipos de alerta y action groups.

Alert Rules — anatomía

Una Alert Rule monitorea continuamente datos y crea una alerta cuando se cumplen condiciones definidas. Consta de: Scope (qué monitorear), Condition (cuándo disparar), Actions (qué hacer) y Alert Details (cómo se llama y documenta).

Partes de una Alert Rule

Scope

Qué recurso(s) monitorear. Puede ser un recurso específico, un grupo de recursos, o toda una suscripción. Para alertas de log: el Log Analytics Workspace.

Condition (Signal + Logic)

Qué señal monitorear (métrica, log, activity log, health) y bajo qué condición disparar (umbral, ventana de tiempo, operador).

Actions

Qué hacer cuando se dispara: Action Group con notificaciones y/o automatizaciones.

Alert Details

Nombre, descripción, severidad (0-4) y si la alerta se crea habilitada o deshabilitada.

Estados de una alerta

FiredLa condición se ha cumplido — la alerta está activa. Si hay action group, se notifica.
ResolvedLa condición ya no se cumple — la alerta se cierra automáticamente. Se puede notificar al resolver.
NewEstado del alert instance cuando se dispara (antes de ser revisada).
AcknowledgedUn operador ha tomado nota de la alerta pero no la ha resuelto.
ClosedEl operador ha marcado la alerta como resuelta manualmente.

Tipos de alertas

Metric Alerts

Basadas en valores de métricas de Azure Monitor. Evaluación frecuente (cada minuto). Baja latencia.

  • Threshold: Static (valor fijo) o Dynamic (ML detecta anomalías automáticamente)
  • Aggregation: Average, Max, Min, Total, Count — sobre la ventana de evaluación
  • Evaluation period: cuántos períodos evaluar (ej: 5 de los últimos 10 minutos)
  • Operator: >, >=, <, <=, ==, !=
  • Multi-resource: una sola regla monitorea todas las VMs de una suscripción

Log Search Alerts

Basadas en resultados de queries KQL en Log Analytics. Mayor latencia (mínimo 1 minuto, típicamente 5-15 min). Para patrones complejos.

  • Query: KQL que se ejecuta periódicamente
  • Measure: Number of Results (contar filas) o Metric Measurement (valor de una columna)
  • Threshold: número de resultados que dispara la alerta
  • Frequency: cada cuánto se ejecuta la query (5 min mínimo)
  • Time window: rango de tiempo que evalúa la query (ej: últimos 30 min)

Activity Log Alerts

Basadas en eventos del Activity Log (operaciones sobre recursos). Para detectar cambios de configuración o eventos de servicio.

  • Disparadas por: create/update/delete de recursos, cambios RBAC, Service Health events
  • Near real-time: se disparan en segundos del evento
  • No hay frecuencia de evaluación — event-driven
  • Caso típico: alerta cuando se elimina un NSG o se cambia una regla de firewall

Service Health Alerts

Notifican de incidentes, mantenimiento planificado y avisos de salud de servicios Azure que afectan a tu suscripción/región.

  • Tipos: Service Issues, Planned Maintenance, Health Advisories, Security Advisories
  • Filtro por región y servicio específico
  • No requieren configuración adicional de fuentes de datos
  • Recomendación: siempre configurarlas para ser informado de outages

Severidades de alerta

NivelNombreDescripciónEjemplo
Sev 0CriticalServicio caído — impacto inmediato en producciónVM down, base de datos inaccesible
Sev 1ErrorProblema grave que requiere atención urgenteCPU >95% sostenido, disco >90%
Sev 2WarningSituación que podría convertirse en errorCPU >80%, conexiones DB altas
Sev 3InformationalEvento de información — sin impacto inmediatoInicio de mantenimiento planificado
Sev 4VerboseInformación detallada para diagnósticoLogs de debug, eventos de tracing

Action Groups — configuración

Buenas prácticas

  • Crear action groups reutilizables por nivel de severidad (Critical-AG, Warning-AG)
  • Incluir múltiples tipos de notificación (email + SMS) para redundancia
  • Configurar webhook o Logic App para crear tickets automáticos en ITSM
  • Probar el action group antes de producción — botón "Test" en el portal
  • Los action groups son regionales pero las acciones se ejecutan globalmente

Límites de action groups

• Máx 5 action groups por alert rule

• Máx 1000 email per hour (rate limiting)

• SMS: 1 por 5 minutos por número de teléfono

• Voice: 1 por 5 minutos por número

• Webhook: reintentos automáticos si falla (exponential backoff)

Alert Processing Rules

Las Alert Processing Rules (antes llamadas Action Rules) permiten modificar el comportamiento de alertas ya disparadas: suprimir notificaciones durante ventanas de mantenimiento, agregar action groups adicionales o filtrar qué alertas reciben qué acciones.

Supresión por mantenimiento

Silencia todas las alertas de ciertos recursos durante una ventana programada. Ej: silenciar alertas de CPU durante actualizaciones de OS de 00:00-04:00.

Añadir action group

Agrega un action group adicional a alertas que cumplan ciertos criterios, sin modificar las alert rules existentes. Útil para notificar a múltiples equipos.

Asignar propietario

Asigna automáticamente alertas a un equipo o persona según el recurso, severidad o grupo de recursos afectado.

Smart Groups

Los Smart Groups agrupan automáticamente alertas relacionadas usando ML, reduciendo el ruido de alertas. En lugar de recibir 50 alertas individuales de distintas VMs durante un incidente, recibes 1 Smart Group con todas ellas relacionadas.

  • • Agrupación automática por: tiempo de disparo, tipo de alerta, recurso afectado, condición similar
  • • El Smart Group se resuelve cuando todas sus alertas se resuelven
  • • Permite gestionar incidentes complejos de forma unificada
  • • Visible en Azure Monitor → Alerts → Smart Groups

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Un equipo quiere recibir una alerta cuando la CPU de cualquier VM en una suscripción supera el 90% durante más de 5 minutos consecutivos. ¿Qué tipo de alerta y configuración es más eficiente?