AZ-900

Deep Dive

Practicar ahora
D2 · Arquitectura y servicios

Infraestructura física y Alta Disponibilidad

Cómo Azure construye sus datacenters, el diseño real de las AZs, Availability Sets, Dedicated Hosts y cómo diseñar para SLAs de 99.99%+. El D2 va más allá de los conceptos — aquí está la arquitectura real.

Física del datacenter Azure

Antes de entender AZs y SLAs, hay que entender qué protege físicamente Azure.

Infraestructura física de un datacenter Azure

Fuentes de energía redundantes

Alimentación eléctrica de múltiples subestaciones independientes. UPS (Uninterruptible Power Supply) para cada rack. Generadores diésel con combustible para 72h de operación autónoma.

Cooling independiente

Sistemas de climatización separados. Si falla cooling de un módulo, los otros siguen. Eficiencia PUE de ~1.12 (vs 1.5 típico empresarial).

Red de fibra redundante

Múltiples rutas de fibra óptica entrando al datacenter por distintos conductos físicos. Sin single point of failure en conectividad.

Seguridad física multi-capa

Perímetro físico, biometría (iris, huella), acceso con escolta obligatoria, cámaras 24/7, guardias de seguridad. Solo personal certificado con necesidad específica entra.

Azure vs Datacenter empresarial típico

EscalaMillones de servidores globalmenteDecenas a cientos de servidores
PUE (eficiencia energética)1.12 (clase mundial)1.5–2.0 (típico)
Personal por servidor1 técnico : 25,000 servidores1 técnico : 100–500 servidores
Tiempo medio entre fallos (MTBF)Hardware diseñado para fallar — redundancia asumidaDiseñado para no fallar — fallo = crisis
Inversión anual en seguridad$4B+ (Microsoft global)Presupuesto limitado
CertificacionesISO 27001, SOC 1/2/3, PCI-DSS, FedRAMPPocas o ninguna

Diseño de Availability Zones — la realidad

Qué separa físicamente a las AZs

Distancia física

AZs están a mínimo varios kilómetros entre sí dentro de la misma región metropolitana. Suficiente para que un incidente local (inundación, incendio) no afecte a todas.

Red independiente

Cada AZ tiene sus propios puntos de entrada de fibra, switches de borde y routers. No comparten ningún componente de red física con las otras AZs.

Latencia garantizada

Microsoft garantiza < 2ms de latencia de ida entre cualquier par de AZs en la misma región. Esto permite arquitecturas active-active sincrónicamente.

Servicios con soporte de AZs

No todos los servicios de Azure soportan AZs. Tres categorías:

Zonal

Despliegas en una AZ específica (Zone 1, 2 o 3). Tú controlas la zona.

Ejemplos: VMs, Managed Disks, Standard IPs

Zone-redundant

Azure despliega automáticamente en múltiples AZs. Sin configuración de zona.

Ejemplos: Azure SQL DB, Zone-redundant Storage, App Gateway v2

Non-regional

Servicios globales sin AZ. Siempre disponibles sin asociación a zona.

Ejemplos: Entra ID, Azure DNS, Azure Front Door

SLA por arquitectura de despliegue

VM única sin redundancia99.9%

Downtime máximo: ~8.7h/año

VM con Premium SSD (Availability Set)99.95%

Downtime máximo: ~4.4h/año

VM con Availability Zones99.99%

Downtime máximo: ~52min/año

Servicio multi-región activo-activo99.999%

Downtime máximo: ~5min/año

Availability Sets vs Availability Zones

Ambos mejoran la disponibilidad de VMs, pero protegen contra distintos tipos de fallos. Es una de las confusiones más comunes en el AZ-900.

Availability Sets (AS)

Distribuye VMs en Fault Domains (racks físicos distintos) y Update Domains (grupos para mantenimiento planificado) dentro del mismo datacenter.

Fault Domains (FD)

Máx. 3 FDs por región. Cada FD = rack físico separado con su propia energía y red. Si cae un rack (corte eléctrico) → solo VMs en ese FD se afectan.

Update Domains (UD)

Máx. 20 UDs. Cuando Azure hace mantenimiento del host físico, solo reinicia un UD a la vez. Con 2 UDs: mientras reinicia UD1, UD2 sigue sirviendo.

SLA con AS

99.95% para VMs con Premium SSD en Availability Set

Availability Zones (AZ)

Distribuye VMs en datacenters físicamente separados (distintos edificios, distinta energía, distinta red) dentro de la misma región metropolitana.

Protege contra

Fallo completo de un datacenter: incendio, inundación, corte eléctrico total, fallo masivo de hardware. La otra AZ sigue funcionando.

Latencia entre AZs

< 2ms garantizado. Permite replicación síncrona (datos en dos AZs = siempre consistentes). App se puede ejecutar en AZ1 con DB en AZ1 y AZ2.

SLA con AZs

99.99% para VMs desplegadas en múltiples AZs

CaracterísticaAvailability SetsAvailability Zones
Scope de protecciónDentro del mismo datacenterEntre datacenters distintos
Protege contra fallo de rack✓ (Fault Domains)✓ (cada AZ = datacenter distinto)
Protege contra fallo de datacenter
SLA VM99.95%99.99%
GranularidadRack / grupo de mantenimientoDatacenter completo
Costo adicionalNinguno (misma región)Mínimo egress entre AZs
DisponibilidadTodas las regionesSolo en regiones con AZs (~40+)
Cuándo usarApps legacy, regiones sin AZs, granularidad de rackRecomendado por defecto cuando disponible

¿Se pueden combinar AS y AZs?

NO. Una VM pertenece a un Availability Set O a una Availability Zone — no a ambos. Si tu región tiene AZs, usa AZs (mejor protección). Si no tiene AZs o por compatibilidad de app legacy, usa Availability Sets. Microsoft recomienda AZs sobre AS para nuevas implementaciones.

Dedicated Hosts y Proximity Placement Groups

Azure Dedicated Hosts

Servidor físico completo dedicado exclusivamente a tu organización. Solo tus VMs corren en ese hardware.

¿Cuándo usarlo?

  • Compliance que prohíbe hardware compartido
  • Regulatory: sector defensa, banca en algunas jurisdicciones
  • Licensing: Windows Server / SQL Server con derechos "per physical core"

Limitaciones

  • Precio: ~$3–8/hora por host físico completo (no por VM)
  • Capacidad fija: no puedes mezclar series de VM en un host
  • Disponible solo en regiones específicas

Proximity Placement Groups (PPG)

Agrupa VMs lo más cerca físicamente posible (mismo datacenter, mismo rack si es posible) para minimizar la latencia entre ellas.

¿Por qué importa la latencia intra-cluster?

Un cluster de HPC (High Performance Computing) o un cluster de base de datos necesita comunicación entre nodos en microsegundos, no milisegundos. Sin PPG, dos VMs pueden estar en racks distintos del mismo AZ → latencia de 0.5–2ms. Con PPG → <0.1ms.

Casos de uso

  • Clusters de base de datos (SQL AlwaysOn, Oracle RAC)
  • HPC (simulaciones, ML training distribuido)
  • Gaming servers multi-jugador real-time
  • Aplicaciones financieras de ultra-baja latencia

Cómo calcular SLAs compuestos

Cuando tu arquitectura tiene múltiples componentes, el SLA total es el producto de los SLAs individuales. Esto es fundamental para diseñar y es pregunta frecuente del AZ-900.

Fórmula: SLA compuesto = SLA₁ × SLA₂ × SLA₃

Para componentes en serie (si uno falla, el servicio falla), los SLAs se multiplican.

App web clásica 3-tier (en serie)

Azure Load Balancer

99.99%

×

Azure App Service (Standard)

99.95%

×

Azure SQL Database (General Purpose)

99.99%

=

99.93%

0.9999 × 0.9995 × 0.9999 = 0.9993 ≈ 99.93%

Aunque cada componente tiene SLA alto, el SLA compuesto BAJA. Este es el efecto acumulativo.

App web con redundancia en App Service

Azure Load Balancer

99.99%

×

App Service × 2 AZs (paralelo)

99.9999%*

×

Azure SQL Database (Zone Redundant)

99.995%

=

99.985%

0.9999 × 0.999999 × 0.99995 ≈ 99.985%

*SLA de App Service con Zone Redundancy. Para paralelo: 1 - (1-SLA)^n

El efecto acumulativo — regla para el examen

Más componentes en serie = SLA compuesto SIEMPRE menor que el SLA más bajo individual. Si alguien dice "nuestra arquitectura tiene SLA de 100% porque todos los componentes tienen 99.99%", está equivocado. No existe SLA de 100%.

Patrones de Alta Disponibilidad en Azure

Active-Passive (Activo-Pasivo)

Una instancia activa maneja todo el tráfico. Una instancia pasiva en standby, lista para tomar el relevo si la activa falla.

Ventajas

  • +Menor costo (instancia pasiva puede ser más pequeña)
  • +Sin problemas de consistencia de datos (solo la activa escribe)
  • +Simple de implementar

Desventajas

  • Failover tarda minutos (warmup de la instancia pasiva)
  • Capacidad reducida durante failover
  • Instancia pasiva es desperdicio si no falla nada

En Azure

Azure Site Recovery, SQL Server AlwaysOn en modo asíncrono, Azure SQL Database Business Critical con geo-replica

Active-Active (Activo-Activo)

Múltiples instancias activas manejando tráfico simultáneamente. Si una falla, las demás absorben su carga.

Ventajas

  • +Sin downtime en failover (milisegundos)
  • +Capacidad completa mientras haya al menos una instancia sana
  • +Mejor utilización de recursos (no hay instancias idle)

Desventajas

  • Consistencia de datos más compleja (escrituras en múltiples nodos)
  • Mayor costo (todas las instancias son full-size)
  • Requiere arquitectura stateless o replicación síncrona

En Azure

VM Scale Sets con Load Balancer, App Service con múltiples instancias, Cosmos DB multi-region write

N+1 Redundancy

Tienes N instancias necesarias para manejar la carga + 1 instancia extra. Si una falla, las N restantes siguen manejando toda la carga.

Ventajas

  • +Balance entre costo y disponibilidad
  • +Absorbe fallo de una instancia sin degradación
  • +Sencillo de razonar

Desventajas

  • Si fallan 2 instancias simultáneamente, hay degradación
  • No protege contra fallos masivos

En Azure

VM Scale Sets con min 2 instancias, AKS con 3 nodos mínimo, App Service con 2 instancias en Standard+

¿Entendiste este tema?

Pon a prueba lo que acabas de aprender

¿Cuál es el propósito principal de los pares de regiones (region pairs) en Azure?