Planificación e Instalación de Centros de Proceso de Datos
Gestión de Producción y Organización de CPD en el Servicio Andaluz de Salud
📋 Resumen Ejecutivo
Este tema aborda la planificación, diseño, instalación y operación de Centros de Proceso de Datos (CPD), elementos críticos de la infraestructura TI que requieren consideraciones especiales en ubicación, diseño físico, sistemas de energía, climatización y seguridad. Se analizan las metodologías de gestión de producción y sistemas, incluyendo automatización, monitorización y gestión de capacidad. Finalmente, se estudia la organización específica de los CPD del Servicio Andaluz de Salud, sus características particulares y desafíos en el entorno sanitario.
1. Introducción a los Centros de Proceso de Datos
Un Centro de Proceso de Datos (CPD) o Data Center es una instalación física diseñada para alojar sistemas informáticos y componentes asociados, incluyendo servidores, sistemas de almacenamiento, equipos de red, infraestructura de comunicaciones y todos los elementos necesarios para su correcto funcionamiento: sistemas eléctricos, climatización, seguridad física y contra incendios.
En el contexto sanitario del SAS, los CPD son infraestructuras críticas que soportan sistemas esenciales como la Historia de Salud Electrónica (Diraya), sistemas de prescripción electrónica (Receta XXI), gestión de imágenes médicas (PACS/RIS), y múltiples aplicaciones que impactan directamente en la atención al paciente. Por ello, requieren niveles de disponibilidad, seguridad y resiliencia superiores a los de otras industrias.
1.1. Evolución de los Centros de Datos
- Años 60-70 – Mainframes: Salas informáticas con grandes computadoras centrales, aire acondicionado y suelos técnicos.
- Años 80-90 – Minicomputadoras y servidores: Distribución de la capacidad de cómputo, mayor densidad de equipos.
- Años 2000 – Consolidación y virtualización: Reducción de servidores físicos mediante virtualización, mayor eficiencia.
- Años 2010 – Cloud y modularidad: CPD modulares, contenedorizados, enfoque en eficiencia energética (PUE).
- Años 2020-actualidad – Híbrido y Edge: Arquitecturas híbridas cloud-on-premise, edge computing para latencia ultra-baja, IA para gestión predictiva.
1.2. Tipos de Centros de Datos
| Tipo de CPD | Características | Casos de Uso |
|---|---|---|
| CPD Corporativo | Propiedad de la organización, diseñado para necesidades específicas | SAS, grandes empresas con requisitos particulares |
| CPD de Colocation | Espacio alquilado en instalaciones de terceros, infraestructura compartida | Empresas que buscan reducir inversión en infraestructura |
| CPD Modular | Unidades prefabricadas, rápido despliegue, escalabilidad incremental | Expansiones rápidas, instalaciones temporales |
| CPD Contenedorizado | Infraestructura completa en contenedores, portabilidad | Edge computing, despliegues remotos |
| Hyperscale CPD | Escala masiva (>5,000 servidores), alta eficiencia, proveedores cloud | AWS, Azure, Google Cloud |
| Edge Data Center | Pequeño, cercano al usuario final, baja latencia | IoT, 5G, aplicaciones en tiempo real |
2. Mapa Conceptual del Tema
🗺️ Estructura de un Centro de Proceso de Datos
- • Ubicación y diseño
- • Infraestructura física
- • Niveles TIER
- • Energía y SAI
- • Climatización
- • Seguridad física
- • Tareas y procesos
- • Automatización
- • Monitorización
• Riesgos naturales
• Conectividad
• Pasillos fríos/calientes
• Cableado
• Generadores
• PDU
• Free cooling
• Humedad
• Dependencias
• Calendarios
• Alertas
• Dashboards
📚 Leyenda
3. Planificación de un Centro de Proceso de Datos
La planificación de un CPD es un proceso complejo que requiere análisis detallado de múltiples factores técnicos, económicos, regulatorios y operacionales. Un diseño deficiente puede resultar en costes operacionales excesivos, problemas de disponibilidad o incapacidad para escalar según las necesidades futuras.
3.1. Análisis de Requisitos
Requisitos de Capacidad
- Capacidad de cómputo: Número y tipo de servidores, procesadores, memoria RAM
- Almacenamiento: Capacidad total, IOPS requeridas, tipos de storage (SSD, HDD, NVMe)
- Networking: Ancho de banda interno y externo, latencia, redundancia
- Crecimiento proyectado: Estimación a 3-5 años, considerando virtualización y cloud híbrido
Requisitos de Disponibilidad
- SLA objetivo: 99.9% (8.76h downtime/año), 99.95% (4.38h/año), 99.99% (52.6min/año)
- RTO (Recovery Time Objective): Tiempo máximo aceptable de interrupción
- RPO (Recovery Point Objective): Cantidad máxima de datos que se puede perder
- Criticidad de sistemas: Clasificación de aplicaciones por impacto de caída
ℹ️ Ejemplo de Requisitos SAS
Para sistemas críticos del SAS como Diraya o Receta XXI, los requisitos típicos incluyen:
- Disponibilidad: 99.95% o superior (máximo 4.38 horas de downtime anual)
- RTO: < 1 hora para sistemas críticos
- RPO: < 15 minutos (pérdida máxima de datos)
- Nivel TIER: III o superior (mantenimiento sin interrupción)
Requisitos Normativos y de Seguridad
- Esquema Nacional de Seguridad (ENS): Categoría ALTA para sistemas sanitarios
- RGPD: Protección de datos de salud (categoría especial)
- ISO 27001: Sistema de gestión de seguridad de la información
- ISO 22301: Continuidad de negocio
- Normativa autonómica: Regulaciones específicas de la Junta de Andalucía
3.2. Selección de Ubicación
La ubicación del CPD es una decisión estratégica que afecta a costes, disponibilidad y seguridad a largo plazo.
Criterios de Selección de Ubicación
| Factor | Consideraciones | Impacto |
|---|---|---|
| Riesgos naturales | Zonas sísmicas, inundables, huracanes, incendios forestales | Disponibilidad y seguros |
| Conectividad | Múltiples proveedores de fibra, diversidad de rutas | Latencia y redundancia |
| Energía eléctrica | Estabilidad de red eléctrica, costes, posibilidad de doble acometida | Disponibilidad y costes operacionales |
| Climatología | Temperatura media, humedad, posibilidad de free cooling | Eficiencia energética (PUE) |
| Accesibilidad | Cercanía a equipos de operación, proveedores, aeropuertos | Tiempo de respuesta ante incidencias |
| Seguridad física | Entorno seguro, distancia de instalaciones críticas, zonas industriales | Riesgo de ataques físicos |
| Coste inmobiliario | Precio del terreno/edificio, impuestos locales | CAPEX inicial |
| Regulaciones locales | Normativas de construcción, medioambientales, laborales | Tiempo de construcción y costes |
Estrategia de Redundancia Geográfica
Para organizaciones críticas como el SAS, es fundamental contar con un CPD de respaldo geográficamente separado:
- Distancia mínima: >50 km para evitar que un mismo desastre afecte a ambos CPD
- Diversidad de rutas: Conexiones de red por rutas físicas diferentes
- Diversidad de proveedores: Diferentes compañías eléctricas y de telecomunicaciones
- Sincronización de datos: Replicación en tiempo real o cuasi-real entre CPDs
3.3. Diseño de la Sala de CPD
Layout y Distribución
El diseño del layout de la sala debe optimizar la refrigeración, facilitar el mantenimiento y permitir escalabilidad:
- Pasillos fríos y calientes: Disposición alternada de racks con pasillos fríos (frontales) y calientes (traseros) para optimizar climatización
- Contención de pasillos: Cerrar pasillos fríos o calientes con puertas y techos para máxima eficiencia
- Densidad de racks: Equilibrio entre densidad (espacio) y capacidad de refrigeración (típicamente 5-15 kW por rack)
- Espacios de circulación: Pasillos de al menos 1.2m de ancho para maniobra de equipos y personal
- Áreas diferenciadas: Zonas de recepción de equipos, almacenamiento temporal, zona de montaje
Suelo Técnico
- Altura: Típicamente 60-80 cm para cableado y distribución de aire frío
- Capacidad de carga: Mínimo 1,200 kg/m² para soportar racks llenos
- Rejillas perforadas: En pasillos fríos para distribución de aire (25-60% de apertura)
- Sellado: Evitar fugas de aire entre suelo técnico y sala
Cableado Estructurado
- Bandejas superiores: Para cableado de red (Cat6A, fibra óptica)
- Suelo técnico: Para cableado eléctrico (separación mínima de 30 cm con cables de datos)
- Etiquetado: Sistema claro y consistente para todos los cables
- Gestión de cables: Organizadores verticales y horizontales, velcro en lugar de bridas
- Código de colores: Diferenciación visual de tipos de cable (producción, gestión, etc.)
⚠️ Best Practice: Documentación del Layout
Mantener planos actualizados del CPD con ubicación exacta de cada rack, incluyendo:
- Numeración de racks y su contenido (servidores, switches, storage)
- Tomas eléctricas y sus circuitos asociados
- Puntos de red y su conexión a switches core
- Sensores de temperatura y humedad
- Cámaras de seguridad y detectores de humo
4. Clasificación de Niveles TIER
El Uptime Institute desarrolló el estándar TIER para clasificar la infraestructura de CPDs según su disponibilidad y redundancia. Esta clasificación es fundamental para definir el nivel de servicio que puede proporcionar un CPD.
4.1. Niveles TIER Detallados
| Nivel | Nombre | Disponibilidad | Downtime Anual | Características |
|---|---|---|---|---|
| TIER I | Básico | 99.671% | 28.8 horas | • Distribución única de energía y refrigeración • Sin redundancia • Mantenimiento requiere parada completa |
| TIER II | Componentes Redundantes | 99.741% | 22 horas | • Componentes redundantes (N+1) • Distribución única • Mantenimiento requiere parada parcial |
| TIER III | Mantenimiento Concurrente | 99.982% | 1.6 horas | • Múltiples distribuciones (activa/pasiva) • Redundancia N+1 en todos los componentes • Mantenimiento sin interrupción • 72 horas de autonomía |
| TIER IV | Tolerante a Fallos | 99.995% | 26.3 minutos | • Múltiples distribuciones activas (2N, 2N+1) • Tolerancia a cualquier fallo único • Compartimentación física • 96 horas de autonomía |
4.2. Componentes de Redundancia por TIER
ℹ️ Conceptos de Redundancia
- N: Capacidad necesaria para soportar la carga
- N+1: Capacidad N más un componente adicional idéntico
- 2N: Dos sistemas completamente independientes (duplicación completa)
- 2N+1: Dos sistemas independientes más un componente adicional
Aplicación de TIER en el SAS
El Servicio Andaluz de Salud típicamente opera CPDs con certificación TIER III para sus sistemas críticos:
- CPD principal: TIER III – permite mantenimiento sin interrupción de servicios sanitarios
- CPD de respaldo/DR: TIER III – garantiza continuidad en caso de desastre
- Justificación: Balance óptimo entre coste y disponibilidad para servicios de salud pública
- Cumplimiento ENS: TIER III cumple requisitos de categoría ALTA del Esquema Nacional de Seguridad
5. Sistemas de Energía y SAI
El suministro eléctrico es el componente más crítico de un CPD. Cualquier interrupción en el suministro resulta en caída inmediata de servicios. Por ello, se implementan múltiples capas de protección y redundancia.
5.1. Arquitectura de Energía
Acometida Eléctrica Principal
- Doble acometida: Desde subestaciones diferentes de la compañía eléctrica
- Transformadores: Conversión de media tensión (15-20 kV) a baja tensión (400V)
- Cuadros eléctricos principales: Distribución a diferentes zonas del CPD
- Monitorización continua: Calidad de energía, armónicos, factor de potencia
SAI / UPS (Sistema de Alimentación Ininterrumpida)
Los SAI protegen contra microcortes, fluctuaciones y proporcionan tiempo para que arranquen los generadores:
- Configuración N+1 (TIER II-III): Capacidad total dividida en unidades que soportan la carga completa más una adicional de respaldo
- Configuración 2N (TIER IV): Dos sistemas SAI completamente independientes
- Tipos de SAI:
- Online/Doble conversión: La más común en CPDs, protección continua, conversión AC-DC-AC
- Line-Interactive: Menor coste, protección intermedia, regulador de voltaje
- Offline/Standby: Protección básica, conmutación en milisegundos
- Autonomía: Típicamente 10-15 minutos, tiempo suficiente para arranque de generadores
- Baterías: Tipo VRLA (Valve Regulated Lead Acid) o de ion-litio (mayor densidad, vida útil)
- Mantenimiento: Pruebas de carga mensuales, reemplazo de baterías cada 3-5 años
Grupos Electrógenos (Generadores Diésel)
- Función: Suministro prolongado ante cortes de red eléctrica
- Tiempo de arranque: 10-30 segundos (cubiertos por SAI)
- Capacidad de combustible: Mínimo 24-48 horas de autonomía, hasta 72-96 horas en TIER III-IV
- Redundancia: N+1 o 2N según nivel TIER
- Mantenimiento: Arranques de prueba semanales con carga, cambio de aceite según horas de uso
- Ubicación: Exterior en zona techada o en sala específica con extracción de gases
PDU (Power Distribution Unit)
- Función: Distribuir energía desde SAI a racks
- PDU básicas: Distribución pasiva, múltiples tomas
- PDU inteligentes: Monitorización por toma, corte remoto, medición de consumo
- PDU conmutadas: Dos fuentes de alimentación con conmutación automática
- Instalación: Montaje en rack o overhead (suspendidas sobre pasillos)
✅ Mejores Prácticas en Energía
- Implementar fuentes de alimentación redundantes en cada servidor crítico (doble PSU)
- Conectar cada PSU a PDUs de circuitos eléctricos diferentes
- Realizar pruebas de failover completas al menos semestralmente
- Mantener contrato de suministro prioritario de combustible para generadores
- Monitorizar continuamente PUE (Power Usage Effectiveness) objetivo <1.5
- Documentar claramente todos los circuitos eléctricos y sus dependencias
5.2. Eficiencia Energética – PUE
El PUE (Power Usage Effectiveness) es la métrica estándar para medir eficiencia energética de un CPD:
ℹ️ Fórmula del PUE
PUE = Energía Total del CPD / Energía TI
Un PUE de 1.0 sería ideal (toda la energía va a equipos TI). Un PUE de 2.0 significa que por cada vatio consumido por TI, se consume otro en infraestructura (climatización, iluminación, etc.).
- PUE típicos:
- CPD antiguo sin optimización: 2.5 – 3.0
- CPD estándar optimizado: 1.5 – 1.8
- CPD de nueva generación: 1.2 – 1.4
- CPD hyperscale (Google, Microsoft): 1.1 – 1.2
- Factores que mejoran PUE: Free cooling, virtualización, contención de pasillos, equipos eficientes
6. Sistemas de Climatización
La climatización es el segundo mayor consumidor de energía en un CPD después de los equipos TI. Los servidores modernos generan una densidad térmica elevada que debe ser disipada eficientemente para evitar daños y garantizar fiabilidad.
6.1. Requisitos de Climatización
Parámetros Ambientales Recomendados (ASHRAE)
- Temperatura: 18°C – 27°C (óptimo: 22-24°C)
- Humedad relativa: 20% – 80% (óptimo: 40-60%)
- Punto de rocío: -12°C a 17°C
- Gradiente térmico: Máximo 5°C/m verticalmente
6.2. Tipos de Sistemas de Climatización
CRAC (Computer Room Air Conditioning)
- Principio: Refrigeración por compresión de gas refrigerante (DX – Direct Expansion)
- Instalación: Unidades perimetrales que impulsan aire frío por suelo técnico
- Ventajas: Control preciso de temperatura y humedad, respuesta rápida
- Desventajas: Alto consumo energético, uso de gases refrigerantes
- Aplicación: CPDs pequeños y medianos
CRAH (Computer Room Air Handler)
- Principio: Agua fría circula por intercambiadores de calor
- Instalación: Requiere sistema de chillers exteriores para enfriar el agua
- Ventajas: Mayor eficiencia energética que CRAC, escalabilidad
- Desventajas: Instalación más compleja, riesgo de fugas de agua
- Aplicación: CPDs medianos y grandes
In-Row Cooling
- Principio: Unidades de refrigeración entre filas de racks
- Ventajas: Refrigeración muy cercana a la fuente de calor, alta eficiencia
- Aplicación: Racks de alta densidad (>10 kW/rack)
Refrigeración Líquida (Liquid Cooling)
- Tipos: Direct-to-chip (placas frías en CPUs), inmersión total en líquido dieléctrico
- Ventajas: Máxima eficiencia, soporta altísimas densidades (>50 kW/rack)
- Desventajas: Coste elevado, complejidad operacional
- Aplicación: Supercomputación, HPC, racks de IA con GPUs
6.3. Free Cooling
El free cooling aprovecha las condiciones climáticas favorables para refrigerar sin compresores mecánicos, reduciendo significativamente el consumo energético:
- Free cooling directo: Introducción directa de aire exterior filtrado (cuando T exterior < T objetivo)
- Free cooling indirecto: Intercambiadores aire-aire sin mezcla (protección contra contaminación)
- Free cooling con agua: Torres de refrigeración enfrían agua con evaporación
- Potencial en España: Regiones del norte pueden usar free cooling 60-80% del año; Andalucía 30-40%
⛔ Riesgos de Climatización Inadecuada
- Sobrecalentamiento: Degradación de componentes, apagados térmicos, fallos permanentes
- Puntos calientes: Racks con refrigeración insuficiente, frecuente en alta densidad
- Humedad baja: Electricidad estática que puede dañar componentes electrónicos
- Humedad alta: Condensación, corrosión de contactos eléctricos
- Fallos en cascada: La caída de un servidor sobrecalentado puede aumentar la carga de otros
7. Seguridad Física y Protección contra Incendios
7.1. Control de Acceso Físico
La seguridad física es la primera línea de defensa contra amenazas tanto externas como internas:
Perímetros de Seguridad
- Perímetro exterior: Vallas, muros, vigilancia, control de acceso vehicular
- Perímetro edificio: Control de acceso al edificio, recepción, tornos
- Perímetro sala CPD: Acceso restringido mediante tarjetas, biometría, PIN
- Perímetro jaulas/racks: Jaulas cerradas para clientes en colocation, racks con puertas
Sistemas de Control de Acceso
- Tarjetas de proximidad (RFID): Identificación básica, trazabilidad de accesos
- Biometría: Huella dactilar, reconocimiento facial, iris – mayor seguridad
- Multifactor: Combinación de tarjeta + PIN + biometría para zonas críticas
- Mantraps/Esclusas: Doble puerta para evitar «tailgating» (entrada no autorizada siguiendo a autorizado)
- Registro de visitantes: Identificación, acompañamiento permanente, devolución de acreditación
Videovigilancia
- Cobertura 360°: Todas las entradas, sala de CPD, pasillos entre racks
- Cámaras HD: Resolución mínima 1080p, visión nocturna
- Grabación continua: Retención mínima 90 días, idealmente 1 año
- Análisis inteligente: Detección de movimiento, reconocimiento facial, alertas
7.2. Protección contra Incendios
Los incendios representan una de las amenazas más destructivas para un CPD. La protección debe ser multicapa y considerar tanto detección temprana como extinción efectiva sin dañar equipos.
Detección de Incendios
- VESDA (Very Early Smoke Detection Apparatus): Detección aspirativa ultra-temprana, detecta partículas antes de que haya humo visible
- Detectores de humo convencionales: Backup de VESDA en sala general
- Detectores de calor: Cables térmicos bajo suelo técnico y sobre falso techo
- Alarmas diferenciadas: Prealerta (VESDA), alerta local, evacuación general
Sistemas de Extinción
ℹ️ Agentes de Extinción para CPD
El agua es inaceptable en CPD por daños a equipos. Se usan agentes limpios que no dejan residuos:
- Gases inertes (IG-541, IG-55): Mezcla de nitrógeno, argón, CO2. Reducen oxígeno de 21% a 12.5%
- HFC (FM-200, Novec 1230): Gases químicos que rompen la reacción de combustión
- Ventajas: No dejan residuo, no dañan equipos electrónicos, apagan fuego rápidamente
- Consideraciones: Gases inertes requieren mayor volumen, HFCs tienen mayor potencial de calentamiento global
Procedimiento de Extinción
- Detección: VESDA detecta partículas incipientes
- Verificación: Personal o sistema automático verifica inicio de fuego
- Pre-descarga: Alarma sonora y visual, 30-60 segundos para evacuación
- Corte HVAC: Sistemas de climatización se apagan para no dispersar el gas
- Descarga de gas: Liberación del agente extintor en 10 segundos
- Saturación: Mantener concentración de gas durante 10 minutos
- Ventilación: Extracción controlada del gas tras extinción confirmada
Barreras Cortafuegos
- Paredes y puertas RF-120: Resistencia al fuego de 120 minutos
- Sellado de penetraciones: Cables, tuberías atravesando paredes selladas con espuma intumescente
- Compartimentación: División de salas grandes en sectores independientes
7.3. Protección contra Agua
- Detección de fugas: Cables sensores bajo suelo técnico en perímetro y bajo unidades CRAH
- Diseño de tuberías: Agua solo en perímetro de sala, no sobre equipos
- Válvulas de corte rápido: Corte automático de agua ante detección de fuga
- Drenajes: Sistema de evacuación de agua bajo suelo técnico
- Impermeabilización: Membranas impermeables en suelos y paredes
8. Planificación y Ejecución de Tareas de Producción
La gestión de producción en un CPD abarca todos los procesos operacionales necesarios para mantener los sistemas en funcionamiento óptimo, ejecutar tareas programadas y responder a incidencias.
8.1. Gestión de Operaciones
Centro de Control de Operaciones (NOC – Network Operations Center)
El NOC es el centro neurálgico desde donde se monitoriza y gestiona toda la infraestructura:
- Monitorización 24/7: Visualización en tiempo real del estado de todos los sistemas
- Dashboards: Paneles con KPIs clave: disponibilidad, rendimiento, capacidad
- Sistema de alertas: Notificaciones automáticas por correo, SMS, llamadas según gravedad
- Herramientas de gestión: Consolas de administración, acceso remoto a servidores
- Documentación: Runbooks, procedimientos, contactos de escalado
Turnos y Cobertura
- Modelo 24/7: Turnos rotativos para cobertura continua (mañana/tarde/noche)
- Guardia localizada: Personal de guardia disponible fuera de horario (menor coste que 24/7)
- Follow-the-sun: Equipos distribuidos geográficamente para cobertura continua sin turnos nocturnos
8.2. Automatización de Tareas (Job Scheduling)
Los schedulers o planificadores de tareas son fundamentales para automatizar procesos recurrentes, reducir errores humanos y optimizar el uso de recursos.
Tipos de Tareas Automatizadas
| Tipo de Tarea | Ejemplos | Frecuencia Típica |
|---|---|---|
| Backups | Backup completo, incremental, diferencial de bases de datos y filesystems | Diaria (incremental), semanal (completo) |
| Procesamiento batch | Facturación, nóminas, cierres contables, informes consolidados | Mensual, trimestral, anual |
| Mantenimiento BBDD | Reorganización de índices, actualización de estadísticas, purga de logs | Semanal, mensual |
| Transferencia de datos | ETL, sincronización entre sistemas, envío de ficheros a terceros | Horaria, diaria |
| Generación de informes | Informes de actividad, cuadros de mando, reportes regulatorios | Diaria, semanal, mensual |
| Limpieza y archivado | Purga de logs antiguos, archivado de datos históricos | Diaria, mensual |
| Monitorización | Health checks, verificación de servicios, pruebas sintéticas | Cada 5-15 minutos |
Herramientas de Scheduling
- Cron (Linux/Unix): Planificador básico de tareas mediante crontab, gratuito, limitado
- Windows Task Scheduler: Equivalente de cron en entornos Windows
- Control-M (BMC): Enterprise scheduler líder, gestión centralizada, dependencias complejas
- IBM Tivoli Workload Scheduler: Solución enterprise de IBM para entornos heterogéneos
- AutoSys (CA/Broadcom): Planificador enterprise con amplia adopción
- Apache Airflow: Orquestador open-source, orientado a pipelines de datos, DAGs en Python
- Jenkins: Automatización CI/CD, también usado para scheduling de tareas operacionales
Características Avanzadas de Schedulers
- Dependencias: Job B solo ejecuta si Job A termina exitosamente
- Calendarios complejos: Primer día laborable del mes, último viernes, excluyendo festivos
- Gestión de recursos: Limitación de jobs concurrentes según capacidad
- Condicionales: Ejecución basada en valores de variables o resultados previos
- Notificaciones: Alertas automáticas en caso de fallo, éxito o SLA excedido
- Self-service: Interfaces web para que usuarios soliciten ejecuciones ad-hoc
- Auditoría: Logs detallados de todas las ejecuciones, tiempos, resultados
✅ Mejores Prácticas en Scheduling
- Definir ventanas de mantenimiento claras y comunicarlas a usuarios
- Escalonar tareas para evitar picos de carga (no ejecutar todos los backups a las 00:00)
- Implementar reintentos automáticos con backoff exponencial ante fallos transitorios
- Mantener runbooks actualizados para cada job crítico
- Monitorizar SLAs de jobs críticos (tiempo de ejecución, tasa de éxito)
- Revisar periódicamente jobs obsoletos y eliminarlos
- Testear cambios en entorno de preproducción antes de producción
8.3. Gestión de Cambios
Los cambios en producción son una de las principales causas de incidencias. Una gestión rigurosa es esencial:
Proceso de Gestión de Cambios (Change Management)
- Solicitud de cambio (RFC): Descripción detallada del cambio, justificación, impacto
- Evaluación: Análisis de riesgos, recursos necesarios, ventanas de implementación
- Aprobación: CAB (Change Advisory Board) aprueba o rechaza según impacto
- Planificación: Plan detallado de implementación y rollback
- Comunicación: Notificación a usuarios afectados con antelación
- Implementación: Ejecución del cambio en ventana aprobada
- Verificación: Comprobación de que el cambio funciona correctamente
- Documentación: Actualización de CMDB, documentación técnica
- Revisión post-implementación: Análisis de lecciones aprendidas
Tipos de Cambios
- Cambios estándar: Preaprobados, bajo riesgo, procedimiento documentado (ej: reinicio de servicio)
- Cambios normales: Requieren aprobación del CAB, seguir proceso completo
- Cambios de emergencia: Proceso acelerado para resolver incidencias críticas, aprobación directa
8.4. Gestión de Incidencias
Clasificación de Incidencias
| Prioridad | Impacto | Tiempo de Respuesta | Tiempo de Resolución |
|---|---|---|---|
| P1 – Crítica | Servicio completamente caído, afecta a todos los usuarios | 15 minutos | 4 horas |
| P2 – Alta | Funcionalidad crítica degradada, afecta a muchos usuarios | 1 hora | 8 horas |
| P3 – Media | Funcionalidad menor afectada, workaround disponible | 4 horas | 2 días |
| P4 – Baja | Inconveniente menor, no impacta operación | 1 día | 1 semana |
Proceso de Resolución de Incidencias
- Detección y registro: Incidencia detectada por monitorización o reportada por usuario
- Clasificación: Asignación de prioridad según impacto y urgencia
- Diagnóstico inicial: Análisis de síntomas, logs, métricas
- Escalado: Si N1 no resuelve, escalar a N2 (especialistas) o N3 (fabricante)
- Resolución: Aplicación de solución, puede incluir workaround temporal
- Verificación: Confirmación con usuario de que el problema está resuelto
- Cierre: Documentación de la solución aplicada
- Análisis post-mortem: Para P1-P2, reunión para identificar causa raíz y prevención
9. Monitorización y Gestión de Capacidad
9.1. Monitorización de Infraestructura
La monitorización continua es esencial para detectar problemas antes de que impacten a usuarios y para optimizar el rendimiento.
Niveles de Monitorización
- Infraestructura física: Temperatura, humedad, energía (UPS, PDU), detección de humo/agua
- Hardware: Estado de servidores, storage, switches, utilización CPU/RAM/disco
- Sistema operativo: Procesos, servicios, logs del sistema, actualizaciones pendientes
- Middleware: Estado de servidores de aplicación, colas, bases de datos
- Aplicaciones: Disponibilidad, tiempos de respuesta, errores, transacciones/segundo
- Experiencia de usuario: Monitorización sintética (robots), Real User Monitoring (RUM)
Herramientas de Monitorización
- Nagios/Icinga: Open-source, monitorización de infraestructura, plugins extensibles
- Zabbix: Open-source, auto-discovery, dashboards avanzados
- Prometheus + Grafana: Métricas de series temporales, ideal para contenedores/Kubernetes
- Datadog: SaaS, monitorización unificada de infraestructura, APM, logs
- New Relic: APM (Application Performance Monitoring), análisis de rendimiento de aplicaciones
- Dynatrace: Observabilidad full-stack con IA, monitorización automática
- ELK Stack (Elasticsearch, Logstash, Kibana): Agregación y análisis de logs
- Splunk: Análisis de logs y SIEM, búsquedas avanzadas
Métricas Clave (Golden Signals)
- Latencia: Tiempo de respuesta de peticiones
- Tráfico: Número de peticiones por segundo
- Errores: Tasa de errores (4xx, 5xx en aplicaciones web)
- Saturación: Utilización de recursos (CPU, RAM, disco, red)
9.2. Gestión de Capacidad
La gestión de capacidad asegura que existan recursos suficientes para satisfacer la demanda actual y futura, optimizando costes.
Procesos de Gestión de Capacidad
- Monitorización continua: Recopilación de datos de utilización de todos los recursos
- Análisis de tendencias: Identificación de patrones de crecimiento, estacionalidad
- Modelado y predicción: Proyección de necesidades futuras (3-12 meses)
- Planificación de capacidad: Decisiones sobre adquisiciones, upgrades, cloud bursting
- Optimización: Identificación de recursos infrautilizados, consolidación
- Reporte: Informes periódicos a dirección sobre capacidad actual y necesidades futuras
Dimensionamiento (Sizing)
Para proyectos nuevos o migraciones, es fundamental dimensionar correctamente los recursos:
- Método basado en carga: Estimación de usuarios concurrentes, transacciones/segundo
- Pruebas de carga: Simulación de carga esperada en entorno de pruebas
- Benchmarking: Comparación con sistemas similares existentes
- Dimensionamiento de referencia: Datos del fabricante sobre capacidad de plataformas
- Factor de crecimiento: Añadir 20-30% de margen para crecimiento inesperado
⚠️ Desafíos de Capacidad en el SAS
El SAS enfrenta desafíos particulares en gestión de capacidad:
- Picos estacionales: Campañas de vacunación, gripe estacional incrementan carga dramáticamente
- Crecimiento de datos: Imágenes médicas (PACS) crecen exponencialmente, terabytes anuales
- Nuevos servicios: Telemedicina, apps móviles añaden demanda impredecible
- Regulación de datos: Retención de historias clínicas por décadas según normativa
- Presupuesto limitado: Sector público con restricciones, debe optimizar inversiones
10. Organización de Centros de Proceso de Datos del SAS
El Servicio Andaluz de Salud gestiona una infraestructura de CPD compleja que soporta servicios críticos para 8.5 millones de ciudadanos andaluces y más de 100,000 profesionales sanitarios.
10.1. Arquitectura de CPDs del SAS
CPD Principal
- Ubicación: Sevilla (información no pública por seguridad)
- Nivel TIER: TIER III (mantenimiento concurrente sin interrupción)
- Disponibilidad objetivo: 99.95% (aproximadamente 4.38 horas downtime anual)
- Sistemas alojados:
- Diraya (Historia de Salud Electrónica)
- Receta XXI (Prescripción electrónica)
- InterSAS (Bus de interoperabilidad)
- CIMA (Centro de Información Médico-Asistencial)
- Sistemas administrativos y de gestión
- Infraestructura: Servidores virtualizados (VMware), storage SAN, redes redundantes
CPD de Contingencia y Disaster Recovery
- Ubicación: Geográficamente separada del principal (>50 km)
- Función: Replicación de datos en tiempo real, failover automático para sistemas críticos
- Configuración: Activo-Pasivo para algunos sistemas, Activo-Activo para otros
- Pruebas de DR: Simulacros periódicos (mínimo 2 veces al año) para validar procedimientos
Edge/Distribución
- Salas de comunicaciones en hospitales: Pequeños CPDs locales con equipamiento de red, servidores de caché
- Sistemas departamentales: RIS/PACS locales en grandes hospitales con alto volumen de imágenes
- Conexión: Enlaces redundantes al CPD principal mediante red corporativa
10.2. Estrategia de Virtualización y Cloud
Virtualización de Servidores
- Plataforma: VMware vSphere para virtualización de servidores
- Tasa de virtualización: >80% de servidores virtualizados
- Beneficios:
- Reducción de hardware físico (ratio 10:1 o superior)
- Despliegue rápido de nuevos servidores (minutos vs días)
- Alta disponibilidad (vMotion, HA, DRS)
- Snapshots para backups y testing
Cloud Híbrido
El SAS está avanzando hacia un modelo de cloud híbrido:
- On-premise: Sistemas críticos con datos sensibles permanecen en CPDs propios
- Cloud público (Azure, AWS): Para entornos de desarrollo/testing, aplicaciones no críticas
- SaaS: Servicios como Office 365 para correo y colaboración
- Justificación cloud: Escalabilidad elástica, reducción de CAPEX, acceso a servicios innovadores (IA, analytics)
- Desafíos cloud: Cumplimiento RGPD (datos de salud en territorio UE), costes de egreso de datos, latencia
10.3. Organización del Personal del CPD
Estructura Organizativa
ℹ️ Roles Típicos en un CPD Sanitario
- Director de Sistemas de Información: Responsable general de TI del SAS
- Responsable de Infraestructura: Gestión de CPDs, redes, seguridad
- Responsable de Operaciones: NOC, producción, incidencias
- Administradores de sistemas: Linux, Windows, bases de datos (Oracle, PostgreSQL)
- Administradores de redes: Switching, routing, firewalls, balanceadores
- Administradores de storage: SANs, NAS, backups
- Administradores de virtualización: VMware, contenedores
- Técnicos de NOC: Monitorización 24/7, respuesta a incidencias N1
- Especialistas de seguridad: Firewall, IDS/IPS, SIEM, auditorías
- Personal de facility: Climatización, energía, seguridad física
Modelo Operacional
- Operación 24/7: NOC con turnos rotativos para sistemas críticos sanitarios
- Guardias localizadas: Especialistas disponibles fuera de horario
- Soporte de fabricantes: Contratos de mantenimiento 24/7 con proveedores (Oracle, VMware, etc.)
- Outsourcing selectivo: Algunos servicios no críticos externalizados
10.4. Cumplimiento Normativo en CPDs del SAS
Esquema Nacional de Seguridad (ENS)
Aplicable a todas las administraciones públicas, categoría ALTA para sistemas sanitarios:
- Controles físicos: Control de acceso multinivel, videovigilancia, detección de intrusión
- Controles técnicos: Cifrado de datos sensibles, auditoría completa, gestión de vulnerabilidades
- Controles organizativos: Políticas de seguridad, gestión de riesgos, continuidad de negocio
- Auditorías: Auditoría ENS cada 2 años por entidad certificadora independiente
RGPD y Protección de Datos de Salud
- Datos de categoría especial: Datos de salud requieren protección reforzada
- Evaluación de impacto (DPIA): Obligatoria para tratamientos de alto riesgo
- Delegado de Protección de Datos: Figura obligatoria en el SAS
- Registro de tratamientos: Documentación de todos los tratamientos de datos
- Derechos de pacientes: Acceso, rectificación, supresión, portabilidad de datos
ISO 27001 – Gestión de Seguridad de la Información
- Certificación: Muchos CPDs del SAS están certificados ISO 27001
- SGSI: Sistema de Gestión de Seguridad de la Información documentado
- Auditorías anuales: Mantenimiento de la certificación
10.5. Proyectos Actuales y Futuros del SAS
Iniciativas en Curso (2024-2025)
- Modernización de infraestructura: Renovación de hardware obsoleto, adopción de NVMe para storage
- Contenedorización: Migración progresiva de aplicaciones a contenedores (Docker/Kubernetes)
- Automatización: Infrastructure as Code (Terraform, Ansible), CI/CD pipelines
- Observabilidad: Implementación de stacks modernos de monitorización (Prometheus, Grafana, Jaeger)
- Zero Trust: Evolución del modelo de seguridad hacia Zero Trust Network Access
Retos Futuros
- IA y Machine Learning: Infraestructura GPU para diagnóstico asistido, medicina personalizada
- 5G y Edge Computing: Procesamiento en hospitales para aplicaciones de ultra-baja latencia
- Quantum-safe cryptography: Preparación para amenazas de computación cuántica
- Sostenibilidad: Objetivos de reducción de huella de carbono, uso de energías renovables
- Resiliencia cibernética: Protección frente a ransomware y ciberataques cada vez más sofisticados
✅ Logros del CPD del SAS
- 99.95% de disponibilidad de Diraya en los últimos 3 años
- Cero pérdida de datos en los últimos 5 años gracias a backups robustos
- Reducción del 40% en consumo energético mediante virtualización y optimización
- Cumplimiento 100% de auditorías ENS y RGPD
- Resiliencia demostrada durante picos de demanda (pandemia COVID-19)
- Reconocimiento como referente en digitalización sanitaria a nivel nacional
11. Preguntas de Test – Evaluación Completa
📝 Instrucciones: A continuación se presentan 25 preguntas tipo test que abarcan todo el contenido del tema. Cada pregunta tiene 4 opciones (A, B, C, D) y una única respuesta correcta. Las soluciones se encuentran al final de esta sección.
Pregunta 1: ¿Qué nivel TIER de clasificación de CPD permite realizar tareas de mantenimiento sin necesidad de interrumpir los servicios?
Pregunta 2: ¿Cuál es el rango óptimo de temperatura recomendado por ASHRAE para un centro de proceso de datos?
Pregunta 3: ¿Qué métrica se utiliza para medir la eficiencia energética de un CPD?
Pregunta 4: En un CPD, ¿qué tipo de sistema de extinción de incendios es el más apropiado para proteger equipos electrónicos?
Pregunta 5: ¿Cuál es la función principal de un SAI (Sistema de Alimentación Ininterrumpida) en un CPD?
Pregunta 6: ¿Qué es el «free cooling» en el contexto de climatización de CPDs?
Pregunta 7: En la gestión de cambios de un CPD, ¿qué es el CAB?
Pregunta 8: ¿Cuál es el nivel de categorización del Esquema Nacional de Seguridad (ENS) aplicable a los sistemas sanitarios del SAS que manejan historias clínicas?
Pregunta 9: ¿Cuál es la disponibilidad anual aproximada de un CPD con certificación TIER III?
Pregunta 10: ¿Qué significa la redundancia «N+1» en sistemas de CPD?
Pregunta 11: ¿Qué rango de humedad relativa recomienda ASHRAE para un CPD?
Pregunta 12: ¿Cuál es la altura típica recomendada para el suelo técnico en un CPD?
Pregunta 13: ¿Qué es VESDA en el contexto de protección contra incendios en CPDs?
Pregunta 14: ¿Cuál es la diferencia principal entre CRAC y CRAH?
Pregunta 15: ¿Qué autonomía mínima de combustible se recomienda para generadores en un CPD TIER III?
Pregunta 16: ¿Qué distancia mínima se recomienda entre un CPD principal y su CPD de respaldo para redundancia geográfica?
Pregunta 17: ¿Qué función tiene una PDU (Power Distribution Unit) en un rack?
Pregunta 18: En job scheduling, ¿qué es una dependencia entre tareas?
Pregunta 19: ¿Qué valor de PUE se considera excelente para un CPD moderno?
Pregunta 20: ¿Qué tiempo de arranque típico tienen los generadores diésel en un CPD?
Pregunta 21: ¿Cuál de las siguientes NO es una «Golden Signal» en monitorización de sistemas?
Pregunta 22: ¿Qué tiempo de respuesta se espera típicamente para una incidencia de prioridad P1 (crítica)?
Pregunta 23: ¿Qué disposición de racks se recomienda para optimizar la refrigeración en un CPD?
Pregunta 24: ¿Qué herramienta open-source es ampliamente utilizada para orquestación de pipelines de datos y scheduling?
Pregunta 25: Según la normativa, ¿con qué frecuencia mínima debe el SAS realizar auditorías del Esquema Nacional de Seguridad (ENS) para sus sistemas de categoría ALTA?
✅ SOLUCIONES DE LAS PREGUNTAS DE TEST
📊 Respuestas Correctas
| Pregunta | Respuesta | Explicación |
|---|---|---|
| 1 | C | TIER III permite mantenimiento concurrente sin interrupción de servicios, característica clave de este nivel. |
| 2 | B | ASHRAE recomienda 22-24°C como rango óptimo para equilibrar eficiencia y fiabilidad de equipos. |
| 3 | B | PUE (Power Usage Effectiveness) = Energía Total / Energía TI. Es la métrica estándar de eficiencia energética. |
| 4 | C | Gases inertes (IG-541) o agentes limpios (FM-200) no dejan residuos y no dañan equipos electrónicos. |
| 5 | B | El SAI proporciona 10-15 minutos de autonomía para proteger contra microcortes y dar tiempo al arranque de generadores. |
| 6 | B | Free cooling aprovecha el aire exterior frío para refrigerar sin usar compresores mecánicos, reduciendo consumo. |
| 7 | B | CAB (Change Advisory Board) es el comité que evalúa y aprueba cambios en producción. |
| 8 | C | Sistemas sanitarios con datos de salud requieren categoría ALTA del ENS por su criticidad y sensibilidad. |
| 9 | C | TIER III garantiza 99.982% de disponibilidad, equivalente a máximo 1.6 horas de downtime anual. |
| 10 | B | N+1 significa capacidad necesaria (N) más un componente adicional idéntico de respaldo. |
| 11 | B | ASHRAE recomienda 40-60% de humedad relativa para evitar electricidad estática (baja) o condensación (alta). |
| 12 | B | 60-80 cm de altura permite paso de cables, tuberías y distribución adecuada de aire frío. |
| 13 | B | VESDA (Very Early Smoke Detection Apparatus) detecta partículas antes de que haya humo visible. |
| 14 | B | CRAC usa compresión de gas refrigerante (DX), CRAH usa agua fría de chillers externos. |
| 15 | C | TIER III requiere mínimo 72 horas de autonomía de combustible para generadores. |
| 16 | C | Mínimo 50 km de separación para evitar que un desastre regional afecte a ambos CPDs. |
| 17 | B | PDU distribuye energía desde SAI/UPS a los equipos del rack, con monitorización y protección. |
| 18 | B | Dependencia: Job B solo ejecuta si Job A termina exitosamente, garantizando secuencia correcta. |
| 19 | D | PUE de 1.1-1.3 se considera excelente. PUE=1.0 sería ideal (toda energía a TI). CPDs hyperscale logran 1.1-1.2. |
| 20 | B | Generadores arrancan en 10-30 segundos. El SAI cubre este tiempo de transición. |
| 21 | C | Las 4 Golden Signals son: Latencia, Tráfico, Errores y Saturación. Coste no es una señal técnica de monitorización. |
| 22 | A | Incidencias P1 (críticas) requieren respuesta en 15 minutos y resolución objetivo de 4 horas. |
| 23 | C | Pasillos fríos (frontales) y calientes (traseros) alternados optimizan la climatización y eficiencia energética. |
| 24 | B | Apache Airflow es la herramienta open-source líder para orquestación de workflows y pipelines de datos. |
| 25 | C | El ENS requiere auditorías cada 2 años para sistemas de categoría ALTA, por entidad certificadora independiente. |
📈 Evaluación del Resultado
- 23-25 correctas (92-100%): Excelente dominio del tema. Preparación óptima.
- 20-22 correctas (80-88%): Buen conocimiento. Revisar áreas específicas con errores.
- 17-19 correctas (68-76%): Conocimiento aceptable. Necesario reforzar algunos conceptos.
- Menos de 17 correctas (<68%): Recomendado repasar el tema completo antes del examen.
💡 Consejos para el Examen
- Memoriza los valores numéricos clave: niveles TIER, rangos de temperatura/humedad, tiempos de respuesta
- Comprende bien las diferencias entre conceptos similares: CRAC vs CRAH, N+1 vs 2N, TIER III vs IV
- Conoce la terminología en inglés: muchas preguntas usan siglas (SAI/UPS, PDU, VESDA, PUE)
- Familiarízate con normativa específica del SAS: ENS categoría ALTA, RGPD, auditorías
- Practica con casos prácticos: qué harías ante una incidencia P1, cómo dimensionar un CPD
12. Referencias Bibliográficas
Estándares y Normativa
- Uptime Institute (2024). Tier Standard: Topology. https://uptimeinstitute.com/tiers
- ASHRAE (2021). Thermal Guidelines for Data Processing Environments (4th Edition). ISBN: 978-1947192362
- ISO/IEC 27001:2022. Information security, cybersecurity and privacy protection
- Real Decreto 311/2022, de 3 de mayo, por el que se regula el Esquema Nacional de Seguridad (ENS)
- Reglamento (UE) 2016/679 – RGPD (Reglamento General de Protección de Datos)
Libros Técnicos
- Rasmussen, N. (2016). Data Center Projects: System Planning, Preparation, and Startup. Schneider Electric White Paper 143. Revision 2
- Turner, W.P., & Seader, J.H. (2022). Data Center Handbook. Wiley. ISBN: 978-1119597537
- Sutherland, D. (2018). Data Center Storage: Cost-Effective Strategies, Implementation, and Management. CRC Press. ISBN: 978-1138893405
- Limoncelli, T., Chalup, S., & Hogan, C. (2016). The Practice of System and Network Administration (3rd Edition). Addison-Wesley. ISBN: 978-0321919168
Documentación del Sector Sanitario
- Servicio Andaluz de Salud (2024). Plan Director de Sistemas de Información del SAS 2024-2027
- Ministerio de Sanidad (2023). Guía de Seguridad de las TIC en el Ámbito Sanitario (CCN-STIC 825)
- Consejería de Salud de Andalucía (2024). Estrategia de Transformación Digital en Salud
White Papers y Recursos Técnicos
- Schneider Electric (2023). Data Center Physical Infrastructure Optimization. White Paper Series
- The Green Grid (2022). PUE: A Comprehensive Examination of the Metric. White Paper #49
- VMware (2024). vSphere 8.0 Documentation. https://docs.vmware.com/
- Gartner (2024). Magic Quadrant for Data Center Infrastructure Management
Recursos Web
- Data Center Knowledge: https://www.datacenterknowledge.com/
- Data Center Dynamics: https://www.datacenterdynamics.com/
- ITIL Foundation: https://www.axelos.com/certifications/itil-service-management
- Centro Criptológico Nacional (CCN-CERT): https://www.ccn-cert.cni.es/
