AZ-104

Deep Dive

D5 · Monitoreo

Diagnósticos

Los diagnósticos en Azure van más allá de las métricas: Diagnostic Settings, Activity Log, Resource Health y Service Health forman el ecosistema de visibilidad sobre qué está pasando con tus recursos y la plataforma Azure. El AZ-104 evalúa todos estos componentes.

Diagnostic Settings

Los Diagnostic Settings son la configuración por recurso que determina qué datos de telemetría se exportan y a qué destinos. Sin Diagnostic Settings, los resource logs y métricas granulares NO se capturan fuera del recurso.

Qué se puede capturar

Metrics

Métricas del recurso (las mismas disponibles en Metrics Explorer). Útil para exportar a Storage para retención larga o a Event Hub para streaming.

Resource Logs (categorías)

Cada recurso expone categorías específicas de logs. Ej: SQL tiene SQLInsights, Errors, QueryStoreRuntimeStatistics. Puedes seleccionar categorías individuales o "All Logs".

Destinos disponibles

Log Analytics Workspace

Análisis en tiempo casi-real con KQL. Alertas basadas en logs. El destino más común para operaciones.

Storage Account

Archivado a largo plazo. Formato JSON en containers nombrados por tipo de log. Para compliance/auditoría con retención de años.

Event Hub

Streaming en tiempo real a sistemas externos. Ideal para SIEM (Splunk, Sentinel, QRadar), data lakes o procesamiento personalizado.

Partner Solution

Integración directa con soluciones de partners certificados (Datadog, Elastic, etc.).

Scope de Diagnostic Settings

Por recurso individual

Cada recurso tiene su propia sección "Diagnostic Settings". Configurar uno por uno o usar Azure Policy para aplicar automáticamente a todos los recursos de un tipo en una suscripción/grupo.

Suscripción (Activity Log)

El Activity Log tiene sus propios Diagnostic Settings a nivel de suscripción. Se configura en Monitor → Activity Log → Diagnostic Settings.

Activity Log en detalle

El Activity Log registra todas las operaciones de escritura (PUT, POST, DELETE) realizadas en recursos Azure — quién hizo qué acción sobre qué recurso, cuándo y el resultado. Es el audit trail del plano de control de Azure.

Campos importantes de cada entrada

CallerEmail del usuario o nombre del service principal que realizó la operación
operationNameOperación realizada: Microsoft.Compute/virtualMachines/write, etc.
eventTimestampCuándo ocurrió la operación
resourceGroupGrupo de recursos afectado
resourceTypeTipo de recurso (Microsoft.Compute/virtualMachines)
resultTypeSuccess o Failed
levelInformational, Warning, Error, Critical
propertiesDetalles adicionales de la operación (request body, response, etc.)

Categorías del Activity Log

Administrative: operaciones CRUD sobre recursos

Security: alertas de Microsoft Defender for Cloud

Service Health: incidentes y mantenimiento de Azure

Alert: alertas de Azure Monitor disparadas

Autoscale: acciones de escalado automático

Recommendation: recomendaciones de Azure Advisor

Policy: evaluaciones de Azure Policy

Retención y exportación

  • • Retención gratuita en Azure: 90 días
  • • Para más de 90 días: Diagnostic Settings → Log Analytics o Storage
  • • Tabla KQL: AzureActivity
  • • Alerta de Activity Log: near real-time (segundos)

Azure Resource Health

Azure Resource Health informa sobre la salud del recurso específico — diferenciando si un problema es causado por la plataforma Azure o por la configuración del usuario. Permite distinguir entre un outage de Azure vs. un problema que el cliente debe resolver.

Estados de Resource Health

Available

El recurso está funcionando correctamente. Sin problemas detectados.

Unavailable

El recurso tiene problemas conocidos. Puede ser un incidente de Azure (plataforma) o un problema del usuario (configuración).

Degraded

El recurso funciona pero con capacidad reducida o advertencias.

Unknown

Azure no ha recibido señales del recurso en más de 10 minutos. Estado transitorio o el recurso está offline.

Cómo usar Resource Health

  • • Acceso: Portal → recurso específico → Resource Health en la barra lateral
  • • O desde: Azure Monitor → Service Health → Resource Health
  • • Muestra historial de salud de los últimos 30 días con causa raíz
  • • Diferencia entre: Platform-initiated (Azure falla) y User-initiated (el cliente reinicia, deallocates)
  • • Útil para soporte: evidencia de que el problema fue de la plataforma (para SLA credit requests)
  • • Se puede configurar alertas de Resource Health en Azure Monitor

Azure Service Health

Azure Service Health informa sobre la salud de los servicios de Azure globalmente y su impacto en tu suscripción. Incluye incidentes activos, mantenimiento planificado y avisos de salud.

Service Issues

Outages activos en servicios Azure que pueden afectar tu suscripción. Incluye región(es) afectada(s), servicios impactados, causa raíz (post-incident) y estado de resolución.

Planned Maintenance

Mantenimiento programado que puede requerir acción del cliente o causar breve downtime. Microsoft notifica con antelación (generalmente 2+ semanas).

Health Advisories

Avisos de features deprecadas, cambios de comportamiento o acciones recomendadas. No implican outage pero requieren atención antes de fechas límite.

Diferencia clave: Service Health vs Resource Health

Service Health

Informa sobre la infraestructura de Azure. Si East US tiene un outage de Azure Compute, Service Health lo muestra. No es específico a tus recursos.

Resource Health

Informa sobre TU recurso específico. Tu VM específica (vm-prod-01) está Available o Unavailable — y si es por Azure o por configuración tuya.

Azure Advisor

Azure Advisor es el servicio de recomendaciones personalizadas de Azure. Analiza tu configuración de recursos y recomienda mejoras en cinco categorías principales.

Reliability (High Availability)

  • Añadir segunda VM a Availability Set
  • Habilitar soft-delete en Storage Account
  • Configurar backup en VM sin backup
  • Añadir zonas de disponibilidad a recursos críticos

Security

  • Habilitar MFA para cuentas privilegiadas
  • Cerrar puertos RDP/SSH expuestos a internet
  • Instalar Microsoft Defender for Cloud en VMs
  • Cifrar discos sin cifrar

Performance

  • Cambiar a Premium SSD para VMs con alta IOPS
  • Ajustar tamaño de VM sobredimensionado
  • Habilitar Accelerated Networking en VMs compatibles
  • Usar caché de Redis para reducir carga en DB

Cost

  • VMs infrautilizadas (CPU <5% 14 días) — reducir tamaño o deallocate
  • Reserved Instances: compra recomendada según uso histórico
  • Eliminar discos huérfanos sin VM adjunta
  • Snapshots de larga data sin uso

Operational Excellence

  • Actualizar SDKs/APIs deprecadas
  • Seguir convenciones de nomenclatura
  • Configurar alertas recomendadas
  • Usar infraestructura como código (ARM/Bicep/Terraform)

Cost Management y diagnósticos de costo

Cost Analysis

Visualiza el gasto por servicio, grupo de recursos, etiqueta, ubicación. Permite filtrar y agrupar de múltiples formas. Identifica los recursos más costosos y tendencias de gasto.

  • Disponible en: Subscriptions, Resource Groups, Management Groups
  • Vista diaria, mensual, acumulada
  • Exportar a CSV o conectar con Power BI
  • Comparar vs. período anterior

Budgets

Define umbrales de gasto y recibe alertas cuando se alcanzan. Se pueden configurar acciones automáticas (action groups) al superar el 50%, 80%, 100% del budget.

  • Scope: suscripción, grupo de recursos, o filtros por servicio/etiqueta
  • Alertas en: 50%, 80%, 100% (reales y forecasted)
  • No bloquea el gasto — solo alerta
  • Renovación: mensual, trimestral, anual

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Un administrador elimina accidentalmente un grupo de recursos crítico. ¿En qué servicio de Azure puede encontrar exactamente quién realizó la eliminación, a qué hora y desde qué IP?