Tema de Composición 4: Virtualización, Almacenamiento Masivo y Planes de Contingencia

Introducción

La infraestructura tecnológica de cualquier organización moderna, y muy en particular la de una Administración Pública que presta servicios esenciales a la ciudadanía de manera continuada, ha experimentado en la última década una transformación profunda en su capa más básica: el hardware. Durante décadas, el modelo dominante fue el de un servidor físico dedicado a una aplicación o servicio concreto, con su propio sistema operativo, su propia capacidad de proceso y su propio almacenamiento local. Este modelo, aunque sencillo de entender, resultaba enormemente ineficiente: los servidores rara vez se utilizaban a más de un 15 o un 20 por ciento de su capacidad real, el aprovisionamiento de un nuevo servicio implicaba semanas de compra e instalación de hardware, y cualquier incidente físico sobre la máquina —un fallo de disco, una avería de la fuente de alimentación, un incendio en la sala— suponía la caída inmediata e irremediable del servicio que sobre ella corría.

La virtualización, tanto de cómputo como de almacenamiento, nace precisamente para resolver estas ineficiencias, desacoplando el servicio lógico del recurso físico que lo soporta. Este desacoplamiento no es solo una mejora de eficiencia económica, sino que constituye la piedra angular sobre la que hoy se construye la disponibilidad y la resiliencia de los sistemas de información. Sin embargo, ni la virtualización de servidores ni la de almacenamiento sirven de nada si el centro de proceso de datos que las alberga físicamente no está correctamente dimensionado, protegido y preparado frente a vulnerabilidades físicas; y, en última instancia, todo ese edificio tecnológico —físico y lógico— debe estar gobernado por un plan de contingencia y recuperación ante desastres que garantice que, ocurra lo que ocurra, el servicio municipal pueda seguir prestándose o restablecerse en un tiempo acotado y conocido de antemano.

En las siguientes páginas se abordará, de manera integrada, esta cadena de dependencias: en primer lugar, la planificación física del centro de proceso de datos como capa previa e indispensable; en segundo lugar, la virtualización de plataforma y los modelos de computación en la nube; en tercer lugar, las arquitecturas de almacenamiento masivo y su propia virtualización; y, finalmente, cómo todo ello se articula en un plan de seguridad, contingencia y recuperación ante desastres efectivo.

El centro de proceso de datos como cimiento físico

Antes de hablar de máquinas virtuales, de hipervisores o de cabinas de almacenamiento, es necesario detenerse en el espacio físico que los alberga, porque ningún nivel de sofisticación lógica puede compensar una mala planificación física del Centro de Proceso de Datos, comúnmente denominado CPD. El dimensionamiento de un CPD debe partir de una previsión realista de las necesidades presentes y futuras de la organización, contemplando no solo el número de racks y armarios necesarios para alojar los servidores, las cabinas de almacenamiento y los elementos de red, sino también, y de forma crítica, la capacidad eléctrica disponible y la capacidad de refrigeración. Un error habitual en organizaciones que crecen de forma orgánica es dimensionar el espacio físico sin tener en cuenta que la densidad de potencia por rack ha aumentado enormemente con la consolidación de servidores que trae consigo la propia virtualización, de modo que hoy un único rack bien ocupado puede demandar una potencia eléctrica y una disipación térmica muy superiores a las que exigía hace una década un mismo espacio físico con servidores físicos dedicados.

La climatización de un CPD se rige por principios bien conocidos en el sector, como la separación de pasillos fríos y pasillos calientes para evitar la recirculación de aire caliente hacia la entrada de los equipos, y normalmente se diseña con redundancia en los propios equipos de climatización, de manera que el fallo de una unidad no comprometa la temperatura general de la sala. De igual modo, el suministro eléctrico se diseña habitualmente con doble acometida y con sistemas de alimentación ininterrumpida, los conocidos SAI o UPS por sus siglas en inglés, que permiten sostener la carga durante los segundos o minutos necesarios hasta que arranquen los grupos electrógenos diésel de respaldo, en aquellos CPD que disponen de ellos. Estos elementos —energía y climatización— constituyen, junto con la propia estructura del edificio, lo que podríamos llamar las vulnerabilidades físicas latentes de cualquier centro de datos, y es responsabilidad de la organización identificarlas y mitigarlas: desde el riesgo de incendio, que se afronta con sistemas de detección temprana y extinción por gases inertes que no dañan el equipamiento electrónico, como el FM-200 o sistemas similares, hasta el riesgo de inundación, que obliga a situar el CPD en plantas no susceptibles de anegamiento y a instalar sensores de presencia de agua bajo el suelo técnico.

El control de acceso al recinto es la otra gran dimensión de la seguridad física. Un CPD bien diseñado aplica el principio de defensa en profundidad también a nivel físico, estableciendo anillos concéntricos de seguridad: un perímetro exterior, un control de acceso al edificio, un control de acceso a la planta o ala donde se ubica el CPD, y finalmente un control de acceso a la propia sala de servidores, habitualmente mediante tarjeta de proximidad combinada con algún factor biométrico, y con circuito cerrado de videovigilancia que registra todos los accesos. Es fundamental que el acceso quede trazado, registrado y sea auditable, de manera que en caso de incidente pueda reconstruirse quién entró, cuándo y a qué área concreta, lo cual conecta directamente con las exigencias de trazabilidad que impone el Esquema Nacional de Seguridad para los sistemas que tratan información de las Administraciones Públicas. Esta planificación física, en definitiva, no es un capítulo aislado de infraestructura, sino la capa cero sobre la que se sostiene todo lo demás: ni la virtualización más avanzada ni el almacenamiento más redundante sirven de nada si el suelo sobre el que se asientan no está protegido frente a estos riesgos físicos.

Virtualización de plataforma: del servidor físico al recurso lógico

Sentada esta base física, el siguiente nivel de abstracción es la virtualización de plataforma, entendida como la tecnología que permite ejecutar múltiples sistemas operativos y aplicaciones de forma simultánea e independiente sobre un mismo servidor físico, conocido en este contexto como host o anfitrión. El elemento central de esta tecnología es el hipervisor, una capa de software que se interpone entre el hardware físico y las distintas máquinas virtuales, asignando y arbitrando de forma dinámica los recursos de procesador, memoria, disco y red entre ellas. Se distingue habitualmente entre hipervisores de tipo 1, que se instalan directamente sobre el hardware sin necesidad de un sistema operativo anfitrión previo —siendo VMware ESXi, Microsoft Hyper-V o KVM en entornos Linux los ejemplos más representativos en el ámbito empresarial—, y los hipervisores de tipo 2, que se ejecutan como una aplicación más sobre un sistema operativo ya instalado, y que suelen reservarse para entornos de escritorio o de pruebas por la sobrecarga adicional que introducen.

Las ventajas de la virtualización de servidores son tan numerosas que explican por sí solas su adopción prácticamente universal en cualquier CPD corporativo o público. En primer lugar, la consolidación: donde antes hacían falta diez servidores físicos infrautilizados, hoy es posible alojar esas mismas diez cargas de trabajo sobre dos o tres servidores físicos de mayor capacidad, mejorando drásticamente el aprovechamiento de los recursos y reduciendo el consumo eléctrico y la huella física en el CPD. En segundo lugar, el aislamiento: cada máquina virtual se comporta como si fuera un servidor independiente, de modo que un fallo o una vulnerabilidad de seguridad en una de ellas no compromete, en condiciones normales, a las demás que compartan el mismo host físico. En tercer lugar, y este es quizá el aspecto más relevante de cara a la disponibilidad del servicio, la portabilidad y la flexibilidad: una máquina virtual no es más que un conjunto de ficheros que describen su configuración y su disco virtual, lo cual permite moverla en caliente de un servidor físico a otro sin apenas interrupción del servicio, mediante tecnologías de migración en vivo como vMotion en el entorno VMware o Live Migration en el entorno Microsoft. Esta capacidad de mover cargas de trabajo de forma dinámica entre hosts físicos es la que permite, por ejemplo, sacar un servidor físico de producción para realizar tareas de mantenimiento sin que el usuario final perciba ninguna interrupción, y es también, como se verá más adelante, uno de los pilares técnicos que hacen posible una recuperación ante desastres moderna.

A esta virtualización de servidores se suma hoy, de forma cada vez más relevante, la computación en la nube o Cloud Computing, que puede entenderse como una evolución natural de la propia virtualización llevada a su extremo: en lugar de gestionar el organismo público sus propios hosts físicos y su propio hipervisor, contrata la capacidad de cómputo como un servicio a un proveedor externo, pagando en función del consumo real y pudiendo escalar esa capacidad de forma prácticamente inmediata según las necesidades. Conviene distinguir los tres modelos de servicio habitualmente aceptados: la infraestructura como servicio o IaaS, en la que el proveedor ofrece máquinas virtuales, almacenamiento y red, pero el cliente sigue siendo responsable del sistema operativo y de todo lo que se ejecuta sobre él; la plataforma como servicio o PaaS, en la que el proveedor ofrece además el entorno de ejecución, las bases de datos o los servidores de aplicaciones, liberando al cliente de la gestión del sistema operativo; y el software como servicio o SaaS, en el que el cliente simplemente consume una aplicación ya completamente gestionada por el proveedor. Junto a estos modelos de servicio existen los modelos de despliegue: la nube pública, compartida entre múltiples organizaciones sobre la infraestructura de un gran proveedor; la nube privada, en la que la infraestructura está dedicada en exclusiva a una sola organización, ya sea gestionada en sus propias instalaciones o por un tercero; y la nube híbrida, que combina ambos modelos, siendo esta última especialmente relevante en el ámbito público, donde determinadas cargas de trabajo con datos especialmente sensibles permanecen en infraestructura propia por razones de soberanía del dato y de cumplimiento normativo, mientras que otras cargas con menores requisitos de confidencialidad o con necesidades puntuales de escalado se externalizan hacia la nube pública. Esta combinación permite a una Administración Pública beneficiarse de la elasticidad y la rapidez de aprovisionamiento de la nube pública sin renunciar al control que exige el tratamiento de determinada información, en línea con los principios de seguridad y de categorización de la información que establece el Esquema Nacional de Seguridad.

Almacenamiento masivo: arquitecturas y virtualización del dato

Si la virtualización de servidores resuelve el problema del cómputo, el segundo gran pilar de la infraestructura moderna es el almacenamiento masivo de la información, que ha seguido una evolución paralela y profundamente entrelazada con la propia virtualización de plataforma. Tradicionalmente se distinguen tres grandes arquitecturas de almacenamiento. La más sencilla es el almacenamiento conectado directamente, conocido por sus siglas en inglés como DAS, en el que los discos están conectados de forma directa al servidor que los utiliza, sin pasar por ninguna red intermedia; es la arquitectura más simple y económica, pero también la más limitada, puesto que ese almacenamiento solo puede ser utilizado por el servidor al que está físicamente conectado, lo cual dificulta enormemente compartir información entre distintos sistemas y resulta incompatible con los entornos de virtualización avanzados, donde varios servidores físicos necesitan acceder al mismo conjunto de discos para poder migrar máquinas virtuales entre ellos.

Frente a esta limitación surgen las arquitecturas de almacenamiento en red. La primera de ellas es el almacenamiento conectado en red o NAS, que consiste en un dispositivo dedicado que expone su capacidad de almacenamiento a través de la red corporativa convencional mediante protocolos a nivel de archivo, como NFS en entornos Unix y Linux o SMB/CIFS en entornos Windows; el NAS resulta especialmente adecuado para compartir ficheros entre múltiples usuarios o aplicaciones, y su gestión es relativamente sencilla porque se integra de forma natural con la infraestructura de red ya existente. La segunda gran arquitectura, y la más extendida en los grandes CPD corporativos, es la red de área de almacenamiento o SAN, una red dedicada y separada de la red de datos convencional, normalmente construida sobre tecnología de Fibra Óptica, conocida como Fibre Channel, aunque también existen implementaciones sobre Ethernet mediante protocolos como iSCSI. A diferencia del NAS, la SAN no trabaja a nivel de archivo sino a nivel de bloque, presentando a los servidores volúmenes de disco que estos gestionan como si fueran discos locales propios; esta aproximación a nivel de bloque ofrece un rendimiento muy superior y resulta imprescindible para cargas de trabajo exigentes, como las bases de datos transaccionales o, precisamente, los entornos de virtualización de servidores, donde múltiples hosts físicos necesitan acceso compartido y de alto rendimiento al mismo conjunto de discos para poder soportar la migración en vivo de máquinas virtuales de la que hablábamos en el apartado anterior.

Sobre estas arquitecturas físicas se asienta, igual que ocurría con el cómputo, una capa de virtualización del almacenamiento, cuyo objetivo es exactamente el mismo que el de la virtualización de servidores: desacoplar el recurso lógico que percibe el usuario o la aplicación del hardware físico concreto que lo soporta. La virtualización de almacenamiento agrupa la capacidad física de múltiples discos, e incluso de múltiples cabinas y de distintos fabricantes, en un único espacio de almacenamiento lógico que se gestiona de forma centralizada, sobre el cual se pueden definir volúmenes lógicos que se presentan después a los servidores. Esta capa de virtualización es la que permite funcionalidades hoy consideradas imprescindibles en cualquier entorno corporativo serio. La primera es el aprovisionamiento ligero o thin provisioning, que permite asignar a un volumen lógico una capacidad nominal superior a la capacidad física realmente reservada en ese momento, de manera que el espacio físico solo se consume a medida que efectivamente se va escribiendo información, optimizando enormemente el aprovechamiento del almacenamiento disponible. La segunda es la capacidad de realizar instantáneas o snapshots, fotografías del estado de un volumen en un instante concreto que permiten, en caso de error humano, de corrupción de datos o de infección por código malicioso, restaurar la información a un punto anterior conocido sin necesidad de recurrir a una restauración completa desde copia de seguridad, lo cual reduce drásticamente los tiempos de recuperación ante incidentes menores. Y la tercera, fundamental para lo que se desarrollará en el siguiente apartado, es la replicación, esto es, la capacidad de mantener una copia sincronizada o asíncrona de un volumen de datos en una cabina de almacenamiento distinta, habitualmente situada en una ubicación física diferente.

El plan de seguridad, contingencias y recuperación ante desastres

Llegamos así al punto en el que confluyen todos los elementos descritos anteriormente: el plan de seguridad y contingencias, dentro del cual el plan de recuperación ante desastres, conocido habitualmente por sus siglas en inglés DRP, constituye el componente específicamente orientado a restablecer los sistemas de información tras un incidente grave que haya afectado de forma sustancial a la infraestructura tecnológica. Conviene distinguir con claridad dos conceptos que con frecuencia se confunden. El Plan de Continuidad de Negocio, o BCP, tiene un alcance organizativo amplio y aborda cómo la organización en su conjunto sigue prestando sus funciones esenciales ante cualquier tipo de disrupción, incluyendo aspectos no tecnológicos como la reubicación física del personal o la comunicación con la ciudadanía durante la incidencia. El Plan de Recuperación ante Desastres, en cambio, es un subconjunto de ese plan más amplio, centrado exclusivamente en restablecer la infraestructura y los sistemas de información que dan soporte a esos procesos de negocio, y es precisamente en este punto donde la virtualización de cómputo y de almacenamiento descritas anteriormente se revelan como verdaderos catalizadores.

Antes de diseñar cualquier plan de recuperación es imprescindible llevar a cabo un análisis de riesgos y un análisis de impacto en el negocio, conocido como BIA, que permita identificar qué sistemas son críticos para la prestación de los servicios municipales, qué consecuencias tendría su indisponibilidad y durante cuánto tiempo podría tolerarse esa indisponibilidad sin que se produjera un perjuicio grave para la ciudadanía o para el normal funcionamiento de la Administración. De este análisis se derivan los dos parámetros que vertebran cualquier estrategia de recuperación: el Tiempo Objetivo de Recuperación o RTO, que expresa el tiempo máximo que puede transcurrir desde que se produce el desastre hasta que el servicio queda restablecido, y el Punto Objetivo de Recuperación o RPO, que expresa la cantidad máxima de datos, medida en tiempo, que la organización puede permitirse perder; un RPO de una hora significa que, en el peor de los casos, se perderá la información generada en la última hora previa al desastre, lo cual obliga a que la frecuencia de las copias de seguridad o de la replicación de datos sea, como mínimo, igual o inferior a ese intervalo. No todos los sistemas municipales tienen los mismos requisitos: un sistema de gestión de nóminas puede tolerar razonablemente un RTO de varios días, mientras que un sistema de atención de emergencias o de gestión del tráfico exigirá un RTO de minutos, lo cual justifica clasificar los sistemas por niveles de criticidad y diseñar estrategias de recuperación diferenciadas y proporcionadas para cada uno de ellos, en lugar de aplicar una solución única y costosa a la totalidad del parque tecnológico.

Es precisamente aquí donde la virtualización se convierte en la piedra angular del diseño moderno de un DRP. En el modelo tradicional de servidores físicos, recuperar un servicio tras la pérdida del CPD principal implicaba adquirir nuevo hardware, instalar el sistema operativo desde cero, reinstalar las aplicaciones y restaurar los datos desde la última copia de seguridad disponible, un proceso que con frecuencia se medía en días. La virtualización transforma radicalmente este escenario porque, al ser una máquina virtual esencialmente un conjunto de ficheros independiente del hardware subyacente, esos ficheros pueden replicarse de forma continua, mediante las funcionalidades de replicación de almacenamiento descritas en el apartado anterior, hacia un CPD secundario o de respaldo geográficamente distante del principal. Cuando se produce el desastre, en lugar de tener que reconstruir el servicio desde cero, basta con arrancar en el CPD secundario las copias replicadas de esas máquinas virtuales, operación que puede completarse en minutos en lugar de en días, especialmente si se dispone de herramientas de orquestación de la recuperación que automaticen el orden de arranque de los distintos servicios y sus dependencias entre sí. Este enfoque es lo que en el sector se conoce como Disaster Recovery as a Service o, de forma más genérica, recuperación basada en virtualización, y resulta hoy el estándar de facto en cualquier organización que se tome en serio la continuidad de sus servicios críticos.

En función del RTO y el RPO exigidos para cada sistema, y de su correspondiente coste, se distinguen habitualmente distintas estrategias de CPD de respaldo. El sitio frío o cold site es una instalación que dispone del espacio físico, del suministro eléctrico y de la climatización necesarios, pero sin equipamiento activo ni datos replicados, de modo que en caso de desastre es necesario desplegar el hardware y restaurar los datos desde copia de seguridad, lo cual implica RTO largos pero también costes de mantenimiento muy reducidos. El sitio templado o warm site dispone ya de equipamiento físico instalado y configurado, pero los datos solo se sincronizan de forma periódica, no continua, ofreciendo un punto intermedio razonable entre coste y tiempo de recuperación. Y el sitio caliente o hot site mantiene una réplica permanentemente activa y sincronizada en tiempo real o casi real de los sistemas de producción, permitiendo conmutar el servicio hacia él en cuestión de minutos, siendo esta la estrategia reservada a los sistemas verdaderamente críticos por su elevado coste de mantenimiento continuado. La elección entre estas estrategias para cada sistema municipal debe ser, en última instancia, una decisión informada por el análisis de impacto en el negocio mencionado anteriormente, evitando tanto el riesgo de infradimensionar la protección de un servicio esencial como el de incurrir en un gasto desproporcionado para proteger un sistema de baja criticidad.

Resulta imprescindible insistir en que ningún plan de recuperación ante desastres puede considerarse fiable mientras no se somete a pruebas periódicas y documentadas. Es relativamente frecuente encontrar organizaciones que disponen de un plan extensamente redactado pero nunca verificado en la práctica, lo cual genera una falsa sensación de seguridad que se desmorona precisamente en el peor momento posible, que es el de la emergencia real. Las pruebas pueden adoptar distintos niveles de profundidad e intrusión, desde una simple revisión documental o una prueba de escritorio en la que el equipo repasa el procedimiento sin ejecutar ninguna acción real, hasta una prueba de conmutación completa en la que efectivamente se levanta el servicio en el CPD secundario y se valida que opera correctamente, pasando por simulacros parciales sobre sistemas no críticos. Estas pruebas deben repetirse con una periodicidad razonable, deben documentarse formalmente sus resultados, y de cada una de ellas deben extraerse lecciones aprendidas que retroalimenten y mejoren el propio plan, en una lógica de mejora continua plenamente alineada con los principios de gestión de la seguridad que recoge el Esquema Nacional de Seguridad, de aplicación obligatoria a las Administraciones Públicas españolas, y que exige precisamente esta combinación de medidas de prevención, de detección, de respuesta y de recuperación como parte de la gestión continuada del riesgo tecnológico.

Conclusión

A lo largo de este desarrollo se ha tratado de mostrar que la infraestructura tecnológica de una Administración Pública no puede entenderse como una sucesión de capas aisladas, sino como una cadena de dependencias en la que cada nivel se apoya en el anterior. La planificación física del centro de proceso de datos, con su correcto dimensionamiento eléctrico y de climatización y con sus controles de acceso debidamente articulados en anillos de seguridad, constituye el cimiento indispensable sobre el que se construye todo lo demás. Sobre ese cimiento se asienta la virtualización de plataforma, que transforma el rígido modelo de servidores físicos dedicados en un conjunto flexible y portable de cargas de trabajo lógicas, y que encuentra en la computación en la nube, particularmente en sus modelos híbridos, una vía para combinar la elasticidad de la nube pública con el control que exige el tratamiento de información sensible. Junto a ella, la evolución del almacenamiento desde arquitecturas básicas como el DAS hacia redes de almacenamiento compartido como la SAN o el NAS, y su correspondiente virtualización mediante aprovisionamiento ligero, instantáneas y replicación, proporciona la base técnica que hace posible mover y proteger volúmenes de datos cada vez mayores con una eficiencia y una flexibilidad impensables en el modelo tradicional.

Y es precisamente esa combinación de máquinas virtuales portables y de datos replicables la que convierte a la virtualización, tanto de cómputo como de almacenamiento, en la auténtica piedra angular de cualquier plan de recuperación ante desastres moderno, permitiendo pasar de tiempos de recuperación medidos en días a tiempos medidos en minutos u horas, siempre y cuando ese plan se diseñe a partir de un análisis riguroso de riesgos e impacto, se dimensione de forma proporcionada a la criticidad real de cada servicio mediante los parámetros de RTO y RPO, y se someta a pruebas periódicas que lo conviertan en una garantía efectiva y no en un mero documento de cumplimiento normativo. Solo de esta manera, integrando la seguridad física del CPD, la flexibilidad de la virtualización y la disciplina de la planificación de contingencias, puede una Administración Pública asegurar a la ciudadanía que los servicios municipales seguirán prestándose, o se restablecerán en un plazo razonable y conocido, ante cualquier eventualidad que pueda comprometer su infraestructura tecnológica.