AZ-104

Deep Dive

D6 · Recuperación

Estrategia de Disaster Recovery

Una estrategia de DR define cómo recuperar sistemas críticos cuando ocurre un desastre. El AZ-104 evalúa los fundamentos de DR, las opciones en Azure (regiones paired, zonas, ASR, backup) y cómo diseñar una estrategia acorde con los objetivos de RTO y RPO.

Qué es una estrategia de Disaster Recovery

Disaster Recovery (DR) es el proceso de restaurar operaciones después de un evento catastrófico — fallo de datacenter, desastre natural, ciberataque o error humano masivo. Una estrategia de DR define qué sistemas proteger, cómo y con qué objetivos de tiempo y pérdida de datos.

RTO — Recovery Time Objective

Tiempo máximo aceptable de inactividad del sistema. "Debemos estar operativos en menos de 4 horas". Define cuánto tiempo puede tolerar el negocio sin el servicio.

RTO = 2h: el sistema debe estar restaurado en menos de 2 horas tras el desastre.

RPO — Recovery Point Objective

Pérdida máxima de datos tolerable en tiempo. "No podemos perder más de 1 hora de transacciones". Define la frecuencia de backup/replicación necesaria.

RPO = 30min: el backup más reciente debe tener máximo 30 minutos de antigüedad.

SLA de disponibilidad

Porcentaje de tiempo que el sistema debe estar disponible. Determina el tiempo de downtime permitido anualmente.

99.99% = máx 52 min/año | 99.9% = máx 8.7h/año | 99% = máx 87.6h/año

Tipos de estrategia de DR

PatrónDescripciónRTORPOCostoImplementación Azure
Backup & RestoreSolo backups periódicos. Restaurar desde cero en caso de desastre.Horas–díasHorasBajoAzure Backup solo
Pilot LightInfraestructura mínima en DR (solo DB replicado). Resto se aprovisiona al hacer failover.30min–2hMinutosBajo-MedioASR para DB + IaC para resto
Warm StandbyInfraestructura completa en DR pero con capacidad reducida (scale up en failover).MinutosSegundos–minMedio-AltoASR + Traffic Manager + VMSS
Hot Standby / Active-ActiveInfraestructura completa en DR recibiendo tráfico activo. Failover transparente.Segundos0 o ~0Alto (2x infra)Multi-región con Front Door/TM + DB sync activo

La relación inversa RTO/RPO vs Costo

RTO y RPO más bajos siempre cuestan más — requieren más infraestructura y replicación continua. El diseño de DR es un balance entre el costo de implementar la protección vs. el costo del downtime/pérdida de datos para el negocio. Para una tienda online que pierde $10.000/minuto, un hot standby se paga solo.

Estrategias de DR en Azure

Azure Backup (Restore)

Para: Backup & Restore pattern

Ventajas

Costo muy bajo, configuración sencilla, GRS para redundancia cross-region.

Limitaciones

RTO alto (horas de restauración), RPO = frecuencia de backup (horas).

Azure Site Recovery

Para: Pilot Light / Warm Standby pattern

Ventajas

RPO hasta 30 seg, RTO de minutos, réplica siempre actualizada, test failover.

Limitaciones

Costo de replicación + almacenamiento de réplica, no es activo-activo.

Multi-región activo-activo

Para: Hot Standby / Active-Active pattern

Ventajas

RTO ~0 (Traffic Manager/Front Door redirige automáticamente), RPO ~0 con DB sync.

Limitaciones

Costo ~2x (infraestructura completa en dos regiones), complejidad de sync de DB.

Availability Zones

Para: Alta disponibilidad (no DR inter-regional)

Ventajas

SLA 99.99%, sin gestión adicional, VMs en distintas zonas físicas de la región.

Limitaciones

No protege contra fallo de región completa, solo dentro de la misma región.

Regiones paired y Availability Zones

Regiones paired (Region Pairs)

Azure organiza las regiones en pares — cada región está emparejada con otra en la misma geografía (ej: East US ↔ West US). Las regiones paired tienen beneficios especiales para DR.

  • • Updates planificados se despliegan de una en una — no ambas paired simultáneamente
  • • GRS de Azure Backup y Storage replica a la región paired
  • • ASR Cross-Region Restore usa la región paired
  • • En caso de outage masivo, Azure prioriza restaurar una de las dos regiones paired primero
  • • Mínimo 300 millas de separación física entre pares
East USWest US
North EuropeWest Europe
East AsiaSoutheast Asia
Brazil SouthSouth Central US

Availability Zones (AZ) vs Regiones paired

Availability Zones

3 zonas físicamente separadas dentro de una región. Protegen ante fallo de datacenter (zona) dentro de la región. SLA 99.99%. Baja latencia entre zonas.

NO protegen si la región completa cae (incendio, evento natural regional).

Regiones paired

Regiones en la misma geografía pero separadas 300+ millas. Protegen ante desastres regionales. Mayor latencia entre pares. Requiere configuración explícita de replicación.

Estrategia combinada

AZ para HA dentro de región (zona falla) + Región paired para DR (región completa cae). Máxima resiliencia.

Elementos de un plan de DR

Componentes del plan

Inventario de sistemas críticos

Clasificar sistemas por criticidad: críticos (RTO < 1h), importantes (RTO < 8h), no críticos (RTO días). No todo necesita el mismo nivel de protección.

RTO y RPO por sistema

Definir objetivos concretos acordados con el negocio. Documentar la justificación económica.

Runbooks de failover

Procedimientos paso a paso documentados para ejecutar el failover. Deben poderse ejecutar bajo presión, sin el experto principal.

Árbol de comunicación

Quién notifica a quién durante el incidente. Contactos de proveedores (Microsoft Support, ISPs). Comunicación a usuarios/clientes.

Dependencias críticas a documentar

  • • DNS: ¿Cuánto tiempo tarda en propagarse el cambio DNS? ¿TTL configurado bajo?
  • • Certificados SSL: ¿están instalados en la región de DR?
  • • Secrets y credenciales: ¿Key Vault replicado o accesible desde DR?
  • • Dependencias de base de datos: ¿réplica de DB sincronizada?
  • • Integraciones externas: ¿APIs de terceros saben que cambió el endpoint?
  • • Storage/blobs: ¿datos replicados a la región de DR?
  • • Configuración de red: ¿VNets, NSGs, UDRs creados en DR?

Testing del plan de DR

Un plan de DR no probado no es un plan — es una esperanza. El testing regular es la única forma de validar que el plan funciona, que los RTO/RPO son alcanzables y que el equipo sabe qué hacer bajo presión.

Test Failover (ASR)

Frecuencia recomendada: Cada 3-6 meses

Ejecutar Test Failover en ASR en VNet aislada. Verificar que las VMs arrancan, la aplicación funciona y los datos son consistentes. Sin impacto en producción.

Restore drill

Frecuencia recomendada: Anual

Restaurar un backup en un entorno de test y verificar que la aplicación funciona correctamente. Medir el tiempo real de restauración vs. el RTO objetivo.

Full DR exercise

Frecuencia recomendada: Anual

Simulacro completo: ejecutar el plan de DR como si fuera real (sin avisarle al equipo de operaciones con anticipación si es posible). Incluye comunicaciones, decisiones y failback.

Errores comunes en DR

→ Plan desactualizado: la infraestructura cambió pero el plan no

→ Solo el arquitecto sabe ejecutar el failover

→ DNS con TTL alto (horas de propagación en failover)

→ Nunca probado: el primer "test" es el desastre real

→ Backup existe pero restore nunca se ha probado

→ Region paired no tiene los recursos pre-aprovisionados

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una empresa define un RPO de 15 minutos para su base de datos SQL en producción. ¿Qué solución en Azure permite alcanzar este objetivo?