AZ-104

Deep Dive

Practicar ahora
D6 · Recuperación

Continuidad del Negocio

La continuidad del negocio (BC) es el marco más amplio que engloba DR. Asegura que las operaciones críticas puedan continuar durante y después de un incidente. El AZ-104 evalúa cómo Azure soporta una estrategia BCDR y las arquitecturas que garantizan resiliencia.

Business Continuity Management (BCM)

Business Continuity es el proceso de asegurar que las funciones críticas de negocio puedan continuar durante y después de un desastre. Es más amplio que DR: DR cubre la recuperación de TI, BC cubre también los procesos de negocio, el personal, los clientes y la comunicación.

BC vs DR

  • DR: recuperar los sistemas de TI después del desastre
  • BC: mantener las operaciones de negocio durante el desastre
  • BC incluye: procesos manuales alternativos, comunicación, personal, proveedores
  • Un buen plan BC puede permitir operar aunque los sistemas de TI estén caídos

Tipos de incidentes

  • Desastre natural: terremoto, inundación, incendio en datacenter
  • Fallo tecnológico: hardware, software, red, proveedor cloud
  • Incidente de seguridad: ransomware, DDoS, brecha de datos
  • Error humano: borrado accidental, configuración incorrecta
  • Pandemia/evento humano: personal clave no disponible

Ciclo de BCM

  • Análisis: BIA — identificar procesos críticos y su impacto
  • Diseño: definir RTO/RPO, estrategias y arquitectura
  • Implementación: desplegar soluciones técnicas (ASR, Backup, multi-región)
  • Testing: test failover, drills, ejercicios de mesa
  • Mejora: lecciones aprendidas, actualización del plan

Business Impact Analysis (BIA)

El Business Impact Analysis (BIA) identifica los procesos críticos del negocio, cuantifica el impacto de su interrupción y establece prioridades de recuperación. Es el punto de partida para definir RTO y RPO.

Qué identifica el BIA

Critical Business Functions (CBF)

Procesos que si fallan causan impacto catastrófico. Ej: procesamiento de pagos, sistema de control de manufactura, soporte médico urgente.

Maximum Tolerable Downtime (MTD)

Tiempo máximo que puede estar caído un proceso antes de daño irreversible al negocio. El RTO debe ser menor que el MTD.

Work Recovery Time (WRT)

Tiempo necesario para recuperar el trabajo acumulado durante el downtime (ej: procesar pedidos pendientes). RTO + WRT ≤ MTD.

Dependencies

Qué sistemas, proveedores, personas o datos necesita cada proceso crítico. Una DB caída puede detener múltiples procesos.

Clasificación de sistemas

Resultado del BIA: clasificar cada sistema por criticidad para priorizar inversión en DR.

Tier 1 — CríticoRTO < 1h, RPO < 15 min

Sistema de pagos, core banking, sistema de control médico. Inversión máxima en BC.

Tier 2 — ImportanteRTO < 8h, RPO < 1h

ERP, CRM, email. Impacto significativo pero no catastrófico si cae unas horas.

Tier 3 — NormalRTO < 24h, RPO < 4h

Intranet, reporting, herramientas internas. Impacto operativo pero tolerable.

Tier 4 — BajoRTO días, RPO diario

Sistemas de archivo, reporting histórico. Solo backup básico necesario.

BCDR en Azure — servicios clave

Servicio AzureFunción en BCDRRTORPOScope
Azure BackupCopia de seguridad y restauración de VMs, DBs, archivosHorasHoras-díasArchivo + restore
Azure Site RecoveryReplicación de VMs para DR cross-regiónMinutos30 seg - 5 minDR de VMs
SQL Failover GroupsFailover automático de Azure SQL< 30 seg< 5 segDR de SQL
Storage GRS/GZRSReplicación async de blobs a región pairedHoras (Microsoft-initiated)~15 min de lagDR de storage
Traffic ManagerFailover DNS automático entre endpoints1-3 minN/A (routing)DR de endpoint
Azure Front DoorFailover de tráfico global en el edge< 30 segN/A (routing)DR de app global
Availability ZonesHA dentro de región ante fallo de zona< 1 seg0HA intrarregional
Availability SetsDistribución de VMs en fault/update domains0 (otras VMs siguen)0HA de VMs

Arquitecturas resilientes en Azure

Single-región con Availability Zones

SLA 99.99%

VMs en múltiples zonas, Load Balancer zone-redundant, SQL zone-redundant. Protege contra fallo de datacenter. NO protege contra fallo de región completa.

Componentes clave

  • VMSS con distribución de zonas
  • Standard LB zone-redundant
  • Azure SQL con zone-redundancy
  • Storage con ZRS

Multi-región activo-pasivo (warm standby)

RTO 15-60 min, RPO ~0

Región primaria activa + región secundaria con capacidad reducida. ASR para VMs, SQL Geo-Replication. Traffic Manager para failover.

Componentes clave

  • Azure Site Recovery (VMs)
  • SQL Active Geo-Replication
  • Traffic Manager Priority
  • Storage GRS
  • Key Vault en ambas regiones

Multi-región activo-activo

RTO ~0, RPO ~0

Ambas regiones reciben tráfico simultáneamente. Front Door o Traffic Manager distribuyen. DB en sync bilateral. Failover es transparente.

Componentes clave

  • Azure Front Door (performance routing)
  • SQL Failover Groups (ambas regiones leen/escriben con routing)
  • VMSS en ambas regiones
  • Cosmos DB (multi-region write)
  • Azure CDN

Backup + Restore (low cost)

RTO horas, RPO horas

Solo Azure Backup. Sin réplica activa. Para sistemas no críticos con budget limitado.

Componentes clave

  • Azure Backup con GRS vault
  • Cross-Region Restore habilitado
  • Scripts de IaC para re-aprovisionar infraestructura
  • Documentación de procedimiento de restore

Cumplimiento y SLAs contractuales

Regulaciones que imponen requisitos de BC/DR

PCI-DSS

Plan documentado de DR, backups cifrados, testing anual del plan

HIPAA (sanidad)

Plan de contingencia, backup, DR y procedimientos de emergencia documentados

ISO 22301

Estándar de BC — proceso completo de BCM, BIA, planes y auditorías

GDPR

Capacidad de restaurar datos personales en tiempo apropiado tras incidente

SOC 2

Controles de disponibilidad, incluye DR y pruebas regulares

SLA contractual vs SLA de Azure

El SLA de Microsoft para servicios Azure es un compromiso financiero — si no se cumple, ofrecen créditos de servicio. No garantizan que tu aplicación tenga 99.99% — eso depende de cómo la has diseñado.

SLA de Azure = disponibilidad del recurso

Azure VM en AZ: 99.99% → si la VM está indisponible más de 52 min/año, Microsoft da crédito.

SLA de tu aplicación = composite SLA

Tu app usa VM (99.99%) + SQL (99.99%) + LB (99.99%). Composite SLA = 99.99% × 99.99% × 99.99% ≈ 99.97%.

Repaso D6 — tabla comparativa final

Servicio / ConceptoPara qué sirveDiferencia clave
Azure BackupBackups y restauraciónMúltiples recovery points históricos. RPO = frecuencia de backup.
Azure Site RecoveryDR — replicación continua de VMsNo es backup — no hay puntos históricos múltiples. RPO = 30 seg.
Recovery Services VaultContenedor para Backup y ASRSoporta Backup + ASR. El más completo y más común en el examen.
Backup VaultContenedor para Backup de PaaS modernosSolo Backup (no ASR). Para Blobs, Disks, PostgreSQL, AKS.
RTOTiempo máximo de inactividad tolerableMide downtime del SISTEMA. RTO < MTD.
RPOPérdida máxima de datos tolerable (en tiempo)Mide pérdida de DATOS. RPO determina frecuencia de backup/replicación.
FailoverActivar el sistema secundario cuando el primario fallaPuede ser automático (TM, SQL Failover Groups) o manual (ASR).
FailbackVolver al sistema primario cuando se recuperaEn ASR: requiere Re-protect antes. Nunca hacer failback apresurado.
Test Failover (ASR)Probar el DR sin impacto en producciónVMs de test en VNet aislada. Producción no se interrumpe.
Soft DeleteRetener datos de backup tras eliminación14 días de retención adicional. Protege contra borrado accidental/malicioso.
Availability ZonesHA intrarregional (zona de DC falla)NO protege contra fallo de región completa.
Region PairsDR cross-región geográficamente separadasPara desastres regionales. GRS, ASR y CRR usan región paired.

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

Una empresa de servicios financieros necesita garantizar que su aplicación de pagos pueda recuperarse de un desastre regional con RTO < 30 minutos y RPO < 5 minutos, cumpliendo con PCI-DSS. ¿Cuál es la combinación de servicios más adecuada?