Conceptos de Recuperación ante Desastres

Ámbito: Continuidad de negocio · Seguridad TI · Gestión de incidentes

Tabla Resumen

Término	Nombre completo	¿Qué mide?	Idea clave	Ejemplo
ROL	Revised Operating Level	Nivel mínimo operativo	Sistema funciona aunque no al 100%	"El sistema debe volver en 2 horas"
RTO	Recovery Time Objective	Tiempo de recuperación	Cuánto tiempo puedes estar caído	"Máximo 4h de caída aceptable"
RPO	Recovery Point Objective	Datos perdidos tolerable	Cuántos datos puedes perder (ventana temporal)	"Se pueden perder 30 min de datos"
MTD	Maximum Tolerable Downtime	Tiempo máximo total caída	Límite absoluto antes de impacto crítico/irreparable	"Más de 8h es inaceptable"

Diagrama Temporal de Recuperación

INCIDENTE                                    RECUPERACIÓN TOTAL
    │                                               │
    ▼                                               ▼
────●───────────────────────────────────────────────●────► tiempo
    │◄──── RPO ────►│◄──────── RTO ────────►│
    │               │                        │
  Último          Punto de                Sistema
  backup          recuperación            operativo
  válido          (datos perdidos)        al 100%

    │◄──────────────── MTD ──────────────────────►│
    │                     │
    │               ROL: sistema funciona
    │               parcialmente (nivel mínimo)
    │               durante la recuperación

Relación entre conceptos

MTD  ≥  RTO  (siempre, o el negocio colapsa)
RPO  →  frecuencia de backups necesaria
ROL  →  umbral mínimo de servicio durante RTO

Desarrollo de cada concepto

RPO — Recovery Point Objective

Define: el punto en el tiempo hasta el que se pueden restaurar los datos.
Determina: la frecuencia mínima de backups.
Si el RPO es de 1 hora → hay que hacer backup cada hora como máximo.
Cuanto menor el RPO, más costoso el sistema de respaldo.

⚠️ Un RPO de 0 significa cero pérdida de datos → requiere replicación en tiempo real.

RTO — Recovery Time Objective

Define: el tiempo máximo tolerable que un sistema puede estar fuera de servicio.
Determina: la velocidad de recuperación necesaria y la infraestructura requerida.
Cuanto menor el RTO, más cara la solución (alta disponibilidad, failover automático...).

MTD — Maximum Tolerable Downtime

Define: el límite absoluto de caída antes de que el impacto sea catastrófico (legal, financiero, reputacional).
Relación con RTO: RTO < MTD siempre. Si el RTO supera el MTD, el plan de recuperación es inviable.
Lo fija el negocio, no el departamento técnico.

ROL — Revised Operating Level

Define: el nivel mínimo funcional aceptable durante el período de recuperación.
No es recuperación total: el sistema opera en modo degradado pero sigue siendo útil.
Ejemplo: durante un fallo, la web solo permite consultas (no compras) → eso es el ROL.

Tabla Comparativa

Aspecto	RPO	RTO	MTD	ROL
Tipo de medida	Datos	Tiempo	Tiempo	Funcionalidad
¿Quién lo fija?	Negocio + TI	TI + Negocio	Negocio	TI + Negocio
Consecuencia si falla	Pérdida de datos	Tiempo caído > límite	Impacto crítico	Servicio inutilizable
Relación	→ frecuencia backup	debe ser < MTD	límite absoluto	nivel durante recuperación
¿Se puede ser 0?	Sí (replicación RT)	Casi no (coste alto)	No	No (siempre hay mínimo)

Jerarquía de los conceptos

         [INCIDENTE]
              │
              ▼
         ┌─────────┐
         │   MTD   │ ← Límite absoluto del negocio
         └────┬────┘
              │ debe contener
         ┌────▼────┐
         │   RTO   │ ← Tiempo para recuperar el servicio
         └────┬────┘
              │ durante el cual opera al nivel mínimo
         ┌────▼────┐
         │   ROL   │ ← Funcionalidad mínima operativa
         └─────────┘

    [Antes del incidente]
         ┌─────────┐
         │   RPO   │ ← Cuánto atrás podemos restaurar datos
         └─────────┘

Resumen en 3 puntos

RPO y RTO son los pilares técnicos: el RPO determina cuántos datos podemos perder (y por tanto la frecuencia de backups), mientras que el RTO determina cuánto tiempo podemos estar caídos (e impacta directamente en la arquitectura de alta disponibilidad).
MTD es el límite de negocio, no técnico: marca el punto de no retorno antes de consecuencias catastróficas. El RTO siempre debe ser menor que el MTD; si no, el plan de continuidad es inviable por diseño.
ROL define el servicio degradado aceptable: durante la ventana de recuperación (RTO), el sistema no tiene por qué estar al 100%; el ROL establece qué funcionalidades mínimas deben mantenerse para que el negocio no se detenga completamente.