Tema 74: Gestión de Datos Corporativos y Big Data

TEMA 74

Gestión de Datos Corporativos

Data Warehouse, OLAP, Big Data, Minería de Datos, Sistemas de Decisión y Aplicaciones en el Servicio Andaluz de Salud

📊 Resumen Ejecutivo

La gestión eficaz de datos corporativos se ha convertido en un activo estratégico fundamental para las organizaciones modernas, especialmente en el sector sanitario público. Este tema abarca el espectro completo de tecnologías y metodologías para transformar datos operacionales en inteligencia accionable: desde los almacenes de datos tradicionales (data warehouses) y arquitecturas OLAP para análisis multidimensional, hasta las modernas plataformas Big Data y ecosistemas Hadoop/Spark para procesar volúmenes masivos de información. Los sistemas de soporte a la decisión, cuadros de mando y KPIs permiten a los gestores sanitarios tomar decisiones informadas basadas en evidencia. En el contexto del Servicio Andaluz de Salud, la Base Poblacional de Salud (BPS) representa un caso de uso paradigmático que integra estas tecnologías para mejorar la planificación sanitaria, la investigación epidemiológica y la calidad asistencial.

1. Almacenes de Datos: Data Warehouse y Data Marts

1.1. Concepto y Características del Data Warehouse

Un Data Warehouse (DW) es un repositorio centralizado de datos integrados procedentes de múltiples fuentes heterogéneas, diseñado específicamente para soportar análisis y toma de decisiones. Bill Inmon, considerado el padre del concepto, lo definió como «una colección de datos orientada a temas, integrada, no volátil y variante en el tiempo, que ayuda a la toma de decisiones gerenciales». Esta definición encapsula las cuatro características fundamentales que distinguen un data warehouse de bases de datos operacionales tradicionales.

Orientado a Temas: Los datos se organizan alrededor de temas de negocio relevantes (pacientes, tratamientos, recursos hospitalarios) en lugar de procesos transaccionales. Por ejemplo, en un contexto sanitario, toda la información relacionada con un paciente se integra desde múltiples sistemas: historia clínica, farmacia, laboratorio, admisiones.

Integrado: Los datos de fuentes dispares se consolidan aplicando reglas de transformación consistentes, resolución de conflictos de nomenclatura, estandarización de formatos y limpieza de inconsistencias. Un data warehouse asegura que «médico» en un sistema y «facultativo» en otro se refieran a la misma entidad.

No Volátil: Una vez cargados, los datos no se modifican ni eliminan (solo se añaden nuevos datos). Esto proporciona estabilidad para análisis históricos y tendencias temporales. Los datos operacionales cambian constantemente, pero el data warehouse mantiene un registro histórico inmutable.

Variante en el Tiempo: Todos los datos incluyen una dimensión temporal explícita, permitiendo análisis de tendencias, comparaciones interanuales y estudios longitudinales. En sanidad, esto permite seguir la evolución de indicadores epidemiológicos o patrones de utilización de servicios.

1.2. Data Marts: Especializaciones Departamentales

Un Data Mart es un subconjunto focalizado del data warehouse, orientado a las necesidades analíticas específicas de un departamento o área funcional. Mientras que el data warehouse corporativo es amplio y abarca toda la organización, un data mart es estrecho y profundo, optimizado para un dominio particular. En el SAS, podrían existir data marts especializados para atención primaria, hospitalaria, salud pública, farmacia, o gestión de recursos humanos sanitarios.

💡 Arquitecturas: Top-Down (Inmon) vs Bottom-Up (Kimball)

Enfoque Inmon (Top-Down): Construir primero un data warehouse corporativo normalizado (3NF), altamente integrado, como fuente única de verdad. Los data marts se derivan posteriormente del DW corporativo. Ventajas: máxima integridad y consistencia. Desventajas: mayor tiempo hasta obtener valor, costos iniciales elevados.

Enfoque Kimball (Bottom-Up): Comenzar construyendo data marts dimensionales independientes orientados a procesos de negocio específicos, que posteriormente se integran mediante «bus de dimensiones conformadas». Ventajas: retorno de inversión más rápido, menor riesgo. Desventajas: posibles inconsistencias si no se gestionan cuidadosamente las dimensiones conformadas.

1.3. Modelado Dimensional: Esquemas Estrella y Copo de Nieve

El modelado dimensional, popularizado por Ralph Kimball, es el paradigma predominante para diseñar data warehouses orientados a consultas analíticas. A diferencia del modelado relacional normalizado usado en bases de datos OLTP, el modelado dimensional prioriza la simplicidad de consulta y el rendimiento de lectura sobre la minimización de redundancia.

Esquema Estrella (Star Schema)

El esquema estrella consiste en una tabla de hechos central rodeada de tablas de dimensiones desnormalizadas. La tabla de hechos contiene métricas numéricas (medidas) y claves foráneas que referencian las dimensiones. Las dimensiones contienen atributos descriptivos que proporcionan contexto para analizar los hechos. Por ejemplo, una tabla de hechos «Consultas_Médicas» podría tener medidas como duración_consulta, coste, y dimensiones como Paciente, Médico, Fecha, Centro_Salud, Diagnóstico.

Las ventajas del esquema estrella incluyen consultas simples de entender (joins directos entre hechos y dimensiones), excelente rendimiento (menos joins), y compatibilidad óptima con herramientas OLAP. La redundancia en dimensiones desnormalizadas se considera aceptable dado el contexto de solo lectura y el beneficio en velocidad de consulta.

Esquema Copo de Nieve (Snowflake Schema)

El esquema copo de nieve normaliza las tablas de dimensiones, creando jerarquías dimensionales explícitas. Por ejemplo, la dimensión Centro_Salud podría normalizarse en Centro_Salud → Distrito_Sanitario → Área_Gestión_Sanitaria → Provincia. Esto reduce redundancia y espacio de almacenamiento, pero incrementa la complejidad de consultas (más joins) y puede degradar el rendimiento. Se utiliza cuando el ahorro de espacio es crítico o las dimensiones son extremadamente grandes.

Esquema Constelación (Constellation o Galaxy Schema)

Un esquema constelación contiene múltiples tablas de hechos que comparten algunas dimensiones conformadas. Por ejemplo, «Ingresos_Hospitalarios» y «Urgencias» podrían compartir dimensiones Paciente, Fecha, y Centro, pero tener dimensiones específicas adicionales. Este es el patrón más común en data warehouses empresariales reales.

Característica	Esquema Estrella	Esquema Copo de Nieve	Esquema Constelación
Estructura	1 tabla hechos + dimensiones desnormalizadas	1 tabla hechos + dimensiones normalizadas	Múltiples tablas hechos + dimensiones compartidas
Complejidad Consultas	Baja (joins simples)	Alta (muchos joins)	Media-Alta (depende de la consulta)
Rendimiento	Excelente	Bueno (con índices apropiados)	Bueno (varía por consulta)
Espacio Almacenamiento	Mayor (redundancia dimensional)	Menor (normalización)	Variable
Mantenimiento	Simple	Más complejo	Complejo (gestión dimensiones conformadas)
Uso Recomendado	Data marts individuales, análisis frecuente	Dimensiones muy grandes, espacio limitado	DW empresariales con múltiples procesos de negocio

1.4. Procesos ETL y ELT Modernos

ETL (Extract, Transform, Load) es el conjunto de procesos que alimentan un data warehouse. Extract obtiene datos de sistemas fuente diversos (bases de datos operacionales, archivos, APIs, streams). Transform aplica limpiezas, conversiones de formato, cálculos, agregaciones, y resolución de conflictos. Load inserta los datos transformados en el data warehouse.

El enfoque tradicional ETL ejecuta transformaciones en un servidor de procesamiento intermedio antes de cargar al destino. ELT (Extract, Load, Transform) invierte el orden: carga primero los datos raw en el destino (típicamente un data lake o warehouse en la nube con gran capacidad de procesamiento), y ejecuta transformaciones in situ aprovechando el poder computacional del destino. ELT ha ganado popularidad con plataformas cloud como Snowflake, BigQuery y Redshift que ofrecen procesamiento masivamente paralelo.

Herramientas modernas incluyen Apache NiFi para orquestación de flujos de datos, Talend y Pentaho (Kettle) como suites ETL tradicionales, Fivetran y Airbyte para replicación ELT cloud-native, y dbt (data build tool) para transformaciones SQL declarativas con versionado, testing y documentación integrados, muy popular en el «modern data stack».

1.5. Data Lakes: Complemento al Data Warehouse

Un data lake es un repositorio centralizado que almacena datos estructurados, semi-estructurados y no estructurados en su formato original (raw), a cualquier escala. A diferencia del data warehouse que requiere esquema predefinido (schema-on-write), el data lake aplica esquema en tiempo de lectura (schema-on-read), proporcionando máxima flexibilidad. Los data lakes típicamente se implementan sobre almacenamiento de objetos distribuido como AWS S3, Azure Data Lake Storage, o Google Cloud Storage.

La arquitectura moderna tiende hacia un enfoque híbrido «lakehouse» que combina la flexibilidad y escalabilidad de data lakes con las capacidades de gestión transaccional, rendimiento de consulta y gobernanza de data warehouses. Tecnologías como Delta Lake, Apache Iceberg y Apache Hudi proporcionan capacidades ACID sobre data lakes.

✅ Cloud Data Warehouses Modernos (2024-2025)

Snowflake: Arquitectura multi-cluster separando almacenamiento y cómputo, escalado automático, pago por uso. Soporta datos semi-estructurados (JSON, Avro, Parquet) nativamente. Popular en enterprise.
Google BigQuery: Serverless, procesamiento petabyte-scale sin gestión de infraestructura. Excelente integración con ecosistema Google Cloud. Modelo ML integrado (BQML).
Amazon Redshift: Almacenamiento columnar, compresión avanzada, Redshift Spectrum para consultar data lakes S3. Integración profunda con AWS.
Azure Synapse Analytics: Unifica data warehousing, big data y integración. Pools SQL dedicados y serverless. Integración con Power BI y Azure ML.
Databricks Lakehouse: Basado en Delta Lake, unifica batch y streaming, integra ML y BI. Motor Apache Spark optimizado.

2. Arquitectura OLAP: Online Analytical Processing

2.1. OLAP vs OLTP: Paradigmas Complementarios

OLTP (Online Transaction Processing) y OLAP (Online Analytical Processing) representan dos paradigmas fundamentalmente diferentes de procesamiento de datos, cada uno optimizado para cargas de trabajo distintas que coexisten en las organizaciones modernas.

Aspecto	OLTP (Transaccional)	OLAP (Analítico)
Propósito	Operaciones diarias, transacciones de negocio	Análisis, reporting, inteligencia de negocio
Usuarios	Personal operativo (empleados, sistemas)	Analistas, gestores, decisores
Tipo de Consultas	Simples, predecibles, afectan pocas filas	Complejas, ad-hoc, escanean grandes volúmenes
Operaciones	INSERT, UPDATE, DELETE frecuentes	Principalmente SELECT (solo lectura)
Diseño BD	Normalizado (3NF) para integridad	Dimensional (esquema estrella) para rendimiento
Historial	Datos actuales (días, semanas)	Datos históricos (años, décadas)
Tamaño BD	GB a TB	TB a PB
Tiempo Respuesta	Milisegundos	Segundos a minutos
Ejemplo Sanitario	Registrar cita médica, dispensar medicamento	Analizar tasas de readmisión, tendencias epidemiológicas

2.2. Cubos Multidimensionales: Fundamento de OLAP

La metáfora central de OLAP es el cubo multidimensional (hipercubo). Mientras que una tabla relacional tradicional es bidimensional (filas y columnas), un cubo OLAP organiza datos en múltiples dimensiones simultáneamente. Por ejemplo, un cubo de análisis de consultas médicas podría tener dimensiones: Tiempo (año, trimestre, mes, día), Geografía (provincia, área sanitaria, distrito, centro), Especialidad (grupo, especialidad, subespecialidad), y Paciente (grupo edad, sexo, zona básica salud). Las celdas del cubo contienen medidas agregadas como número de consultas, tiempo medio de espera, o coste total.

Esta organización multidimensional permite a los usuarios «navegar» los datos intuitivamente mediante operaciones OLAP: Slice (seleccionar un único valor en una dimensión, reduciendo dimensionalidad), Dice (seleccionar rangos en múltiples dimensiones, creando sub-cubos), Drill-down (navegar de nivel agregado a detalle, ej: Año → Trimestre → Mes), Drill-up/Roll-up (agregar detalle hacia niveles superiores), Pivot/Rotate (reorientar el cubo para ver diferentes perspectivas).

2.3. Tipos de Implementación OLAP

MOLAP – Multidimensional OLAP

MOLAP almacena datos en estructuras multidimensionales propietarias optimizadas, precalculando y materializando agregaciones. Los datos se extraen del data warehouse relacional y se cargan en arrays multidimensionales densos o sparse. Ventajas: rendimiento de consulta extremadamente rápido (acceso directo a celdas precalculadas), análisis complejo eficiente. Desventajas: limitaciones de escalabilidad (cubos muy grandes o con alta dimensionalidad pueden ser inmanejables), procesos de carga pueden ser lentos, tecnología propietaria. Productos: Microsoft Analysis Services (SSAS en modo MOLAP), Oracle Essbase, IBM Cognos TM1.

ROLAP – Relational OLAP

ROLAP opera directamente sobre el data warehouse relacional existente, traduciendo dinámicamente operaciones OLAP en consultas SQL complejas. No requiere copiar datos a estructuras propietarias. Ventajas: máxima escalabilidad (aprovecha todo el poder del RDBMS subyacente), sin límites de tamaño de cubo, actualizaciones en tiempo real posibles, usa tecnología estándar (SQL). Desventajas: rendimiento generalmente inferior a MOLAP (especialmente para consultas complejas), requiere optimización cuidadosa de índices y vistas materializadas. Productos: MicroStrategy, SAP BusinessObjects, Pentaho, Apache Kylin.

HOLAP – Hybrid OLAP

HOLAP combina lo mejor de MOLAP y ROLAP: almacena agregaciones precalculadas en estructuras multidimensionales para consultas frecuentes de alto nivel, mientras mantiene datos detallados en el RDBMS relacional accesible bajo demanda. Proporciona balance entre rendimiento y escalabilidad. Microsoft SSAS soporta modo HOLAP.

💡 Herramientas BI y OLAP Modernas (2024-2025)

Self-Service BI: La tendencia actual favorece herramientas visuales que permiten a usuarios de negocio (no técnicos) crear sus propios análisis sin depender de TI. Power BI (Microsoft), Tableau, Qlik Sense, y Looker dominan este espacio, ofreciendo conectores a múltiples fuentes, modelado semántico visual, dashboards interactivos y capacidades de machine learning integradas.

Open Source: Apache Superset, Metabase, Redash proporcionan capacidades BI robustas sin costos de licencia. Apache Kylin ofrece OLAP sobre Hadoop/Spark con rendimiento sub-segundo para datasets petabyte-scale.

Embedded Analytics: Integración de capacidades analíticas directamente en aplicaciones operacionales, difuminando fronteras entre OLTP y OLAP.

3. Minería de Datos: Descubriendo Conocimiento Oculto

3.1. Proceso KDD: Knowledge Discovery in Databases

La minería de datos (data mining) es el núcleo del proceso más amplio de Descubrimiento de Conocimiento en Bases de Datos (KDD – Knowledge Discovery in Databases). El proceso KDD comprende las siguientes fases iterativas:

Comprensión del Dominio: Identificar objetivos del análisis desde perspectiva de negocio, entender el contexto del problema.
Selección: Identificar y extraer datasets relevantes desde repositorios corporativos.
Preprocesamiento: Limpiar datos (manejar valores faltantes, outliers, inconsistencias), integrar múltiples fuentes, realizar muestreo si necesario.
Transformación: Aplicar reducción de dimensionalidad, normalización, discretización, creación de atributos derivados (feature engineering).
Minería de Datos: Aplicar algoritmos de aprendizaje automático para descubrir patrones: clasificación, clustering, asociación, regresión.
Evaluación: Interpretar patrones descubiertos, evaluar calidad y relevancia, validar mediante métricas apropiadas.
Consolidación del Conocimiento: Integrar conocimiento descubierto en sistemas de soporte a decisiones, documentar hallazgos, establecer procesos de actualización.

3.2. Técnicas y Algoritmos Principales

Clasificación

Predecir la clase o categoría de instancias basándose en atributos conocidos. En sanidad: predecir riesgo de readmisión hospitalaria, diagnosticar enfermedades basándose en síntomas y pruebas, estratificar pacientes por riesgo. Algoritmos populares: árboles de decisión (C4.5, CART), Random Forests (ensambles de árboles), Support Vector Machines (SVM), redes neuronales profundas, Naive Bayes, k-Nearest Neighbors (k-NN).

Clustering (Agrupamiento)

Agrupar instancias similares sin etiquetas predefinidas (aprendizaje no supervisado). Aplicaciones sanitarias: segmentación de pacientes en grupos homogéneos para medicina personalizada, identificación de patrones epidemiológicos geográficos, descubrir subtipos de enfermedades. Algoritmos: k-means (particionamiento), clustering jerárquico (aglomerativo/divisivo), DBSCAN (basado en densidad), Gaussian Mixture Models.

Reglas de Asociación

Descubrir relaciones frecuentes entre items en grandes datasets transaccionales. Originalmente para análisis de cesta de compra, en sanidad: identificar comorbilidades frecuentes, asociaciones entre medicamentos y efectos adversos, patrones de prescripción. El algoritmo Apriori y sus variantes (FP-Growth) buscan itemsets frecuentes y generan reglas con métricas de soporte (frecuencia) y confianza (probabilidad condicional).

Regresión

Predecir valores numéricos continuos. Aplicaciones: estimar duración de estancia hospitalaria, predecir demanda de servicios sanitarios, modelar evolución de indicadores de salud. Técnicas: regresión lineal/múltiple, regresión polinomial, regresión logística (para probabilidades), LASSO/Ridge para regularización.

Detección de Anomalías

Identificar instancias que se desvían significativamente de la norma. Crítico en sanidad para detección de fraude en facturación, identificación de eventos adversos raros, alertas tempranas de brotes epidémicos. Métodos: modelos estadísticos (z-score, IQR), Isolation Forests, autoencoders neuronales, One-Class SVM.

3.3. Herramientas de Minería de Datos

Plataformas Visuales: RapidMiner, KNIME Analytics Platform, Orange Data Mining ofrecen interfaces visuales drag-and-drop para diseñar flujos de minería de datos, ideal para analistas sin programación extensiva. Incluyen conectores a múltiples fuentes, cientos de algoritmos preimplementados, y capacidades de automatización y deployment.

Programación Estadística: Python con bibliotecas scikit-learn (algoritmos ML), pandas (manipulación datos), NumPy/SciPy (computación numérica), matplotlib/seaborn (visualización), se ha convertido en el estándar de facto. R ofrece capacidades estadísticas avanzadas y paquetes especializados (caret, randomForest, e1071). Jupyter Notebooks proporcionan entornos interactivos excelentes para experimentación y documentación reproducible.

Plataformas Enterprise: SAS Enterprise Miner, IBM SPSS Modeler, Microsoft Azure Machine Learning Studio ofrecen soluciones integradas end-to-end con gobernanza, seguridad y escalabilidad empresarial.

4. Big Data: Procesando lo Masivo

4.1. Definición y las 5 V’s del Big Data

Big Data se refiere a conjuntos de datos cuyo volumen, velocidad de generación, y variedad exceden la capacidad de herramientas tradicionales de procesamiento de datos. Las «5 V’s» caracterizan los desafíos y oportunidades:

Volumen: Escala masiva de datos (terabytes a petabytes). En sanidad: imágenes médicas de alta resolución, datos genómicos, registros electrónicos de millones de pacientes, datos de wearables y sensores IoMT (Internet of Medical Things).
Velocidad: Generación y procesamiento en tiempo real o near-real-time. Streams de dispositivos médicos de monitorización continua, flujos de datos de emergencias, feeds de redes sociales para vigilancia epidemiológica.
Variedad: Datos estructurados (bases de datos), semi-estructurados (JSON, XML, logs), no estructurados (texto libre, imágenes, audio, video). Historias clínicas narrativas, radiografías, resultados de laboratorio, facturas, quejas de pacientes.
Veracidad: Incertidumbre y calidad de datos. Datos incompletos, ruidosos, inconsistentes o fraudulentos. Critical en decisiones sanitarias donde errores pueden tener consecuencias graves.
Valor: Transformar datos en insights accionables. El objetivo último: extraer valor de negocio (en sanidad: mejorar outcomes clínicos, eficiencia operacional, investigación).

4.2. Arquitectura Big Data: Componentes Principales

Una arquitectura Big Data típica incluye capas para ingesta, almacenamiento, procesamiento, análisis y visualización:

Capa de Ingesta: Captura datos desde fuentes diversas. Batch (Apache Sqoop para RDBMS, scripts de transferencia) y streaming (Apache Kafka, AWS Kinesis, Azure Event Hubs) para datos en tiempo real. Apache NiFi para orquestación de flujos complejos.

Capa de Almacenamiento: Data Lakes sobre sistemas de archivos distribuidos (HDFS, S3, Azure Data Lake) almacenan datos raw en formato original. Bases de datos NoSQL (HBase columnar, MongoDB documental, Cassandra clave-valor distribuida) para acceso operacional a grandes volúmenes.

Capa de Procesamiento: Frameworks para procesamiento distribuido masivamente paralelo. Hadoop MapReduce (batch tradicional), Apache Spark (in-memory, batch y streaming), Apache Flink (streaming de baja latencia), Presto/Trino (queries SQL interactivas sobre data lakes).

Capa de Análisis: Herramientas para extraer insights. Notebooks interactivos (Jupyter, Zeppelin), plataformas ML (TensorFlow, PyTorch, H2O.ai), motores SQL (Hive, Impala, Presto).

Capa de Visualización: Dashboards y reporting. Power BI, Tableau, Superset consumen datos procesados y permiten exploración interactiva.

⚠️ Desafíos de Big Data en Sanidad

Privacidad y Seguridad: Datos sanitarios son extremadamente sensibles. Cumplimiento RGPD, anonimización/pseudonimización, cifrado en tránsito y reposo, auditorías de acceso son imperativos. Riesgo de reidentificación en datasets combinados.
Calidad de Datos: Datos de múltiples sistemas heterogéneos con diferentes estándares, formatos inconsistentes, valores faltantes. «Garbage in, garbage out»: análisis sobre datos de baja calidad produce resultados engañosos.
Interoperabilidad: Integrar datos de sistemas dispares (DIRAYA, laboratorios, radiología, farmacia) requiere estándares como HL7 FHIR, pero adopción inconsistente.
Infraestructura y Costos: Plataformas Big Data requieren infraestructura significativa y expertise técnico especializado. Cloud puede mitigar costos iniciales pero genera gastos operacionales continuos.
Aspectos Éticos: Consentimiento informado para uso secundario de datos, sesgos algorítmicos que pueden perpetuar desigualdades en salud, transparencia en decisiones automatizadas.

5. Ecosistema Hadoop y Alternativas Modernas

5.1. Apache Hadoop: La Plataforma Fundacional

Apache Hadoop revolucionó el procesamiento Big Data al popularizar el paradigma MapReduce para procesamiento distribuido y HDFS (Hadoop Distributed File System) para almacenamiento escalable. Hadoop permite procesar petabytes de datos distribuyendo cómputo y almacenamiento entre clusters de commodity hardware, tolerando fallos de nodos individuales mediante replicación.

HDFS: Sistema de archivos distribuido fault-tolerant que particiona archivos grandes en bloques (típicamente 128MB-256MB) replicados en múltiples nodos (factor de replicación típico: 3). Arquitectura maestro-esclavo con NameNode (metadatos) y DataNodes (bloques de datos).

MapReduce: Modelo de programación para procesamiento batch paralelo. Map fase procesa datos en paralelo produciendo pares clave-valor intermedios. Shuffle agrupa valores por clave. Reduce procesa grupos agregando resultados. Aunque poderoso, MapReduce es verboso de programar y lento (múltiples escrituras a disco).

YARN (Yet Another Resource Negotiator): Gestor de recursos del cluster introducido en Hadoop 2. Desacopla gestión de recursos de lógica de procesamiento, permitiendo ejecutar múltiples frameworks (MapReduce, Spark, Flink) sobre el mismo cluster Hadoop.

5.2. Apache Spark: El Sucesor de Facto

Apache Spark ha superado a MapReduce como motor de procesamiento distribuido preferido, ofreciendo rendimiento significativamente superior (hasta 100x más rápido para cargas en memoria) y APIs más expresivas. Spark mantiene datos en memoria entre operaciones (cuando posible) en lugar de escribir a disco, acelerando enormemente flujos de trabajo iterativos comunes en machine learning.

RDDs (Resilient Distributed Datasets): Abstracción fundamental de Spark, colecciones distribuidas inmutables particionadas que soportan operaciones paralelas (map, filter, reduce) con recuperación automática ante fallos mediante lineage.

DataFrames y Datasets: APIs de alto nivel sobre RDDs con optimizaciones del motor Catalyst y ejecución compilada (Tungsten). Proporcionan rendimiento comparable a código hand-tuned con expresividad similar a pandas/R.

Spark SQL: Motor para consultas SQL y manipulación de datos estructurados. Lee múltiples formatos (Parquet, ORC, JSON, CSV, Hive). Soporta ventanas analíticas, UDFs, y puede consultar directamente data lakes.

Spark Streaming y Structured Streaming: Procesamiento de streams con semántica micro-batch (Spark Streaming clásico) o continuous processing (Structured Streaming) con garantías exactly-once.

MLlib: Biblioteca machine learning distribuida con algoritmos clásicos (árboles, regresión, clustering, factorización matricial, PCA) y pipelines end-to-end.

5.3. Ecosistema Hadoop Extendido

Apache Hive: Data warehouse sobre Hadoop. Proporciona capa SQL (HiveQL) sobre datos en HDFS/S3. Compila queries a jobs Spark o Tez. Permite analistas SQL trabajar con Big Data sin programación MapReduce/Spark. Metastore de Hive es estándar de facto para metadatos de data lakes.

Apache HBase: Base de datos NoSQL columnar distribuida inspirada en Google Bigtable. Proporciona acceso random read/write de baja latencia sobre HDFS. Ideal para aplicaciones que requieren lookups rápidos sobre datasets masivos.

Apache Kafka: Plataforma streaming distribuida para pipelines de datos en tiempo real. Pub-sub de alto throughput, almacenamiento duradero de streams, procesamiento mediante Kafka Streams API. Ubicuo en arquitecturas de eventos y microservicios.

Apache Flink: Motor de procesamiento stream-first (procesamiento batch es caso especial de streaming infinito). Latencias sub-segundo, state management robusto, exactly-once semantics. Alternativa a Spark Streaming para casos uso de baja latencia extrema.

5.4. Estado Actual: ¿Hadoop Sigue Vigente en 2024-2025?

Hadoop como suite monolítica ha perdido momentum. MapReduce está obsoleto para nuevos proyectos (Spark lo reemplaza). Grandes vendors (Cloudera, Hortonworks fusionados; MapR desaparecido) han pivotado hacia cloud y Kubernetes. Sin embargo, componentes individuales persisten: HDFS sigue usándose en on-premise, Hive Metastore es ubicuo, Kafka es estándar streaming.

La tendencia actual favorece arquitecturas cloud-native: almacenamiento de objetos (S3/GCS/Azure Blob) reemplaza HDFS, Kubernetes orquesta Spark en lugar de YARN, servicios administrados eliminan complejidad operacional. Databricks (Spark managed), AWS EMR, Google Dataproc, Azure HDInsight abstraen la gestión de clusters. Para nuevas implementaciones, especialmente en cloud, arquitecturas modernas basadas en Spark + object storage + managed services son preferibles al stack Hadoop tradicional.

6. Sistemas de Soporte a la Decisión (DSS)

6.1. Concepto y Componentes de un DSS

Un Sistema de Soporte a la Decisión (Decision Support System – DSS) es un sistema de información interactivo que utiliza modelos, datos y conocimiento para ayudar a decidores a resolver problemas semi-estructurados o no estructurados. A diferencia de sistemas transaccionales que automatizan procesos repetitivos, los DSS aumentan y complementan el juicio humano en decisiones complejas que requieren análisis, evaluación de alternativas y consideración de múltiples criterios.

Los componentes fundamentales de un DSS incluyen: Base de Datos: Repositorio integrado con datos internos (transaccionales, históricos) y externos (benchmarks, indicadores sectoriales, datos públicos). Base de Modelos: Colección de modelos analíticos, estadísticos, de optimización, simulación que procesan datos. Motor de Inferencia/Razonamiento: En DSS basados en conocimiento, reglas que emulan razonamiento experto. Interfaz de Usuario: Dashboards, visualizaciones, capacidades de what-if analysis que permiten interacción intuitiva.

6.2. Tipos de Sistemas de Soporte a la Decisión

DSS Orientados a Datos (Data-Driven): Enfatizan acceso y manipulación de grandes volúmenes de datos estructurados. Data warehouses, OLAP, queries ad-hoc. Ayudan a identificar patrones, tendencias, excepciones. En sanidad: análisis de listas de espera, utilización de recursos, comparación de centros.

DSS Orientados a Modelos (Model-Driven): Usan modelos cuantitativos (optimización, simulación, estadística) para análisis prescriptivo y predictivo. Optimización de rutas de ambulancias, dimensionamiento de plantillas, simulación de flujos de pacientes, planificación de quirófanos.

DSS Basados en Conocimiento (Knowledge-Driven): Incorporan expertise especializado mediante reglas, razonamiento basado en casos, redes bayesianas. Sistemas de soporte a diagnóstico clínico, prescripción inteligente que alerta interacciones medicamentosas.

DSS Orientados a Comunicación (Communication-Driven): Facilitan colaboración entre múltiples participantes en decisiones. Groupware, sistemas de gestión de workflow, plataformas de decisión grupal distribuida.

6.3. Business Intelligence: DSS Moderno

Business Intelligence (BI) engloba tecnologías, aplicaciones y prácticas para recopilar, integrar, analizar y presentar información de negocio. BI moderno se caracteriza por self-service (empowerment de usuarios de negocio), visualización interactiva, integración de fuentes diversas, capacidades predictivas/prescriptivas mediante ML, y deployment cloud.

El stack BI típico incluye: ingesta de datos (conectores nativos a cientos de fuentes), modelado semántico (capa que abstrae complejidad técnica, define métricas y relaciones), motor analítico in-memory (para queries interactivas rápidas), visualización (dashboards, reportes, storytelling), y gobernanza (seguridad, auditoría, lineage).

7. Cuadros de Mando y Gestión mediante KPIs

7.1. Balanced Scorecard: Marco Estratégico

El Balanced Scorecard (BSC), desarrollado por Kaplan y Norton, es un sistema de gestión estratégica que traduce visión y estrategia en objetivos medibles organizados en cuatro perspectivas complementarias: Financiera (resultados económicos, sostenibilidad fiscal), Cliente/Usuario (satisfacción pacientes, calidad percibida, accesibilidad), Procesos Internos (eficiencia operacional, tiempos de espera, seguridad clínica), y Aprendizaje y Crecimiento (capacitación personal, innovación, cultura organizacional). En sanidad pública, la perspectiva financiera típicamente se reinterpreta como «sostenibilidad» dado que el objetivo no es maximizar beneficio sino valor en salud por euro invertido.

El BSC no es solo medición sino gestión: establece relaciones causa-efecto entre objetivos (ej: mejorar formación personal → mejora procesos → mejora satisfacción pacientes → mejora outcomes → sostenibilidad), alinea iniciativas estratégicas con objetivos, y comunica estrategia a toda la organización mediante mapas estratégicos visuales.

7.2. Dashboards y Scorecards: Diferencias Clave

Aunque a menudo usados intercambiablemente, dashboards y scorecards tienen propósitos distintos. Un dashboard es operacional: monitoriza métricas en tiempo real o near-real-time para identificar problemas inmediatos y facilitar respuesta rápida. Piense panel de instrumentos de automóvil: velocidad actual, revoluciones, combustible. En hospital: ocupación camas urgencias, pacientes esperando triaje, ambulancias en ruta.

Un scorecard es estratégico: rastrea progreso hacia objetivos a largo plazo mediante KPIs, típicamente actualizados mensual o trimestralmente. Evalúa desempeño contra targets y benchmarks, identifica gaps estratégicos. Incorpora semáforos (verde/amarillo/rojo) y tendencias. El BSC es tipo específico de scorecard.

7.3. Diseño de KPIs Efectivos: Criterios SMART

Los Key Performance Indicators (KPIs) son métricas críticas que reflejan factores de éxito esenciales. Un KPI efectivo debe ser SMART: Específico (define claramente qué se mide, sin ambigüedad), Medible (cuantificable con datos disponibles y fiables), Alcanzable (realista dado recursos y contexto), Relevante (alineado con objetivos estratégicos, impacta decisiones), y Temporal (definido periodo de medición, permite tracking de tendencias).

💡 Ejemplos de KPIs Sanitarios del SAS

Acceso y Tiempos:

Tiempo medio de espera para cirugía programada (días) – Target: <60 días según gravedad
% citas primera consulta especializada <30 días - Target: >80%
Tiempo puerta-aguja en ICTUS (minutos) – Target: <60min

Calidad Clínica:

Tasa de readmisiones a 30 días (%) – Benchmark: <8%
Tasa de infecciones nosocomiales por 1000 estancias – Target: reducción YoY
Control HbA1c en pacientes diabéticos (% <7%) - Target: >50%

Eficiencia:

Coste medio por proceso hospitalario (€) – Benchmark: media andaluza
Índice de rotación camas (ingresos/cama/año) – Target: >40
% ocupación quirófanos – Target: >80% horario programado

Satisfacción:

NPS (Net Promoter Score) pacientes – Target: >60
% reclamaciones resueltas <30 días - Target: >90%

7.4. Herramientas de Visualización y Dashboarding (2024-2025)

Microsoft Power BI: Líder del cuadrante Gartner. Integración nativa con ecosistema Microsoft (Azure, Office 365, Dynamics). Power Query para transformaciones, DAX para cálculos complejos. Power BI Service cloud para compartir dashboards. Pricing competitivo ($10/usuario/mes). Excelente para organizaciones Microsoft-centric.

Tableau: Pionero en visualización intuitiva, fuerte en exploración visual ad-hoc. Tableau Prep para preparación datos. Tableau Server/Online para gobernanza empresarial. Adquirido por Salesforce (integración CRM). Precio premium pero extremadamente potente para análisis exploratorio.

Qlik Sense: Motor asociativo único que permite explorar todas las asociaciones de datos sin predefinir drill-paths. Carga datos en memoria para rendimiento. Qlik Cloud para SaaS. Strong en self-service BI governado.

Looker (Google): Enfoque data-modeling-first con LookML (lenguaje modelado semántico). Se ejecuta directamente en data warehouse (no extrae datos). Integrado con Google Cloud. Ideal para organizaciones data-driven con equipos técnicos fuertes.

Open Source: Apache Superset (Airbnb, integrado con ecosistema Python), Metabase (setup simple, SQL-friendly), Redash (queries SQL collaborative). Eliminan costos licencia pero requieren más esfuerzo operacional.

8. Metadatos, Catálogos de Datos y Gobernanza

8.1. Metadatos: Datos sobre Datos

Los metadatos son información descriptiva sobre datos, proporcionando contexto esencial para descubrimiento, comprensión, gestión y uso apropiado. Se clasifican en:

Metadatos Técnicos: Características estructurales y operacionales. Esquemas de bases de datos, tipos de datos, formatos de archivo, ubicaciones físicas, índices, particiones, estadísticas de volumen. Típicamente gestionados por herramientas técnicas (RDBMS catalogs, Hive Metastore).

Metadatos de Negocio: Significado funcional comprensible por usuarios no técnicos. Definiciones de términos de negocio, descripciones de datasets, propietarios de datos, clasificación de sensibilidad, políticas de uso. Documentados en glosarios de negocio y catálogos de datos.

Metadatos Operacionales: Información de gestión y calidad. Frecuencia de actualización, SLAs, métricas de calidad (completitud, exactitud, consistencia), historial de cambios, auditorías de acceso, lineage (rastreo de origen y transformaciones de datos).

8.2. Data Catalogs: Descubriendo Activos de Datos

Un catálogo de datos es un inventario centralizado searchable de todos los activos de datos de una organización. Funciona como «Google para datos internos»: usuarios buscan por términos de negocio y descubren datasets relevantes con sus descripciones, esquemas, calidad, propietarios, y permisos de acceso. Los catálogos modernos incorporan crawlers automatizados que escanean sources (databases, data lakes, APIs, BI tools) extrayendo metadatos técnicos, machine learning para sugerir clasificaciones y relaciones, y capacidades sociales (ratings, comentarios, endorsements).

Productos Enterprise: Collibra, Alation, Informatica Data Catalog ofrecen suites completas con gobierno, lineage, calidad de datos. Pricing significativo pero robustez empresarial.

Open Source: Apache Atlas (metadatos para Hadoop ecosystem), DataHub (LinkedIn, moderno y extensible), Amundsen (Lyft, data discovery), OpenMetadata (emergente, feature-rich). Requieren infraestructura y customización pero sin licencias.

Cloud-Native: AWS Glue Data Catalog, Azure Purview, Google Data Catalog integrados con plataformas cloud respectivas. Convenientes si infrastructure es cloud-homogénea.

8.3. Data Lineage: Rastreando el Viaje de los Datos

El lineage de datos mapea el ciclo de vida completo de datos: desde fuentes originales, a través de todas las transformaciones ETL/ELT, agregaciones en data warehouses, hasta reportes y dashboards finales. Proporciona visibilidad end-to-end respondiendo: ¿De dónde vienen estos datos? ¿Qué transformaciones se aplicaron? ¿Quién los modificó y cuándo? ¿Qué downstream depende de ellos?

El lineage es crítico para: Análisis de Impacto (antes de cambiar un campo en origen, saber qué reportes se romperían), Root Cause Analysis (cuando un KPI es incorrecto, rastrear hacia atrás para identificar el problema), Cumplimiento Regulatorio (auditorías RGPD requieren documentar procesamiento de datos personales), y Comprensión de Datos (entender significado de métricas complejas viendo su derivación).

8.4. Gobernanza de Datos: Marco Organizacional

La gobernanza de datos establece políticas, roles, procesos y controles para gestionar datos como activo estratégico. Componentes clave incluyen: Políticas y Estándares (nomenclaturas, definiciones canónicas, clasificación sensibilidad, retención), Organización (comité de gobernanza, data stewards por dominio, propietarios de datos), Calidad de Datos (métricas, perfilado, limpieza, monitorización continua), Seguridad y Privacidad (controles de acceso, cifrado, anonimización, auditoría), Gestión del Ciclo de Vida (creación, actualización, archivo, eliminación según políticas).

En sanidad, la gobernanza de datos es regulatoriamente obligatoria (RGPD, LSSICE, normativa específica sanitaria) y éticamente imperativa dado el carácter sensible de datos de salud.

9. Repositorios y Bancos de Datos

9.1. Definiciones y Distinciones

Aunque a menudo confundidos, estos términos tienen matices distintos en contexto de gestión de información:

Base de Datos: Colección organizada de datos estructurados gestionada por un SGBD (Sistema Gestor de Bases de Datos), típicamente para uso operacional (OLTP). Optimizada para transacciones, actualizaciones frecuentes, consultas simples rápidas.

Data Warehouse: Como discutido extensamente, repositorio centralizado integrado orientado a análisis, histórico, no volátil. Agrega datos de múltiples bases operacionales.

Repositorio: Término más amplio para cualquier sistema centralizado de almacenamiento y gestión de activos de información. Puede contener código (repositorios Git), documentos (repositorios documentales tipo SharePoint, Alfresco), conocimiento (knowledge bases), o metadatos (repositorios de metadatos como registros de esquemas).

Banco de Datos: Término tradicional, menos usado actualmente, que puede referirse a colecciones muy grandes de datos (similar a data warehouse), o en contexto regulatorio europeo (directivas protección de datos), a cualquier fichero o conjunto estructurado de datos personales.

9.2. Gestión Documental y Repositorios de Contenido

Los sistemas de gestión documental (DMS – Document Management Systems) o de contenido empresarial (ECM – Enterprise Content Management) gestionan el ciclo de vida completo de documentos no estructurados: captura (scanning, upload), indexación y metadatos, almacenamiento seguro, versionado y control de cambios, búsqueda y recuperación, workflow y aprobaciones, preservación a largo plazo y eliminación controlada.

En sanidad, DMS gestionan consentimientos informados escaneados, informes clínicos firmados digitalmente, documentación administrativa, imágenes diagnósticas con metadatos DICOM, y cada vez más, integración con historia clínica electrónica para vista unificada de información estructurada y documental del paciente.

9.3. Versionado y Control de Cambios

El control de versiones rastrea cambios en artefactos a lo largo del tiempo, permitiendo recuperar versiones anteriores, comparar diferencias, entender evolución, y colaborar sin sobrescribir trabajo ajeno. Git es el estándar de facto para código, pero conceptos análogos aplican a datos y modelos.

Data Version Control (DVC): Extensión de Git para versionar datasets y modelos ML. Los archivos grandes se almacenan en storage remoto (S3, Azure Blob), Git solo rastrea metadatos y punteros. Reproduce pipelines ML completos.

lakeFS: Sistema de versionado para data lakes. Proporciona branches, commits, merges tipo Git sobre object storage. Permite experimentación aislada, rollback de cambios erróneos, reproducibilidad.

Delta Lake, Apache Iceberg, Apache Hudi: Añaden capacidades transaccionales (ACID) y time-travel a data lakes, permitiendo consultar snapshots históricos y revertir cambios.

10. Aplicación en el Servicio Andaluz de Salud

10.1. Contexto del Sistema Sanitario Andaluz

El Servicio Andaluz de Salud (SAS) gestiona el sistema sanitario público de Andalucía, una de las comunidades autónomas más grandes de España con población superior a 8,5 millones de habitantes. Con más de 1.500 centros de salud, 34 hospitales, y aproximadamente 100.000 profesionales, el SAS genera volúmenes masivos de datos sanitarios diariamente: registros de consultas, ingresos hospitalarios, prescripciones farmacéuticas, resultados de pruebas diagnósticas, datos epidemiológicos, información administrativa y de gestión.

La gestión eficaz de estos datos es crítica para objetivos múltiples: planificación sanitaria basada en evidencia, mejora de calidad asistencial, investigación clínica y epidemiológica, vigilancia de salud pública, eficiencia operacional, y rendición de cuentas a ciudadanos. Las tecnologías de este tema (data warehouses, OLAP, Big Data, DSS) son fundamentales para transformar datos operacionales en inteligencia accionable que guíe decisiones estratégicas y operativas.

10.2. Sistemas de Información Sanitaria del SAS

DIRAYA: Sistema corporativo central del SAS que integra historia clínica digital única (HCDU), gestión de citas, prescripción electrónica, acceso a pruebas diagnósticas, y múltiples módulos funcionales. Basado en tecnología Oracle, DIRAYA es el repositorio operacional primario (OLTP) con datos transaccionales de millones de pacientes y profesionales.

Módulos Especializados: Sistemas específicos complementan DIRAYA: SICA (admisiones hospitalarias), Farmacia (receta electrónica y dispensación), PACS (imagen médica digital), SiLOG (laboratorios), CMBD (conjunto mínimo básico de datos al alta hospitalaria), entre otros. La interoperabilidad entre estos sistemas, frecuentemente de vendors diferentes y tecnologías heterogéneas, presenta desafíos significativos.

Infraestructura Tecnológica: El SAS ha migrado progresivamente hacia cloud híbrida, con CPDs corporativos para sistemas críticos core complementados con servicios cloud públicos (principalmente Azure) para cargas de trabajo analytics, entornos de desarrollo/test, y servicios emergentes. La conectividad se apoya en Red SARA (interconexión administraciones) y redes privadas sanitarias.

10.3. Proyectos de Analítica Avanzada en el SAS

El SAS ha desarrollado diversas iniciativas para explotar analíticamente sus datos:

Data Warehouse Corporativo: Aunque información pública detallada es limitada, el SAS opera almacenes de datos que consolidan información de sistemas transaccionales múltiples para reporting gerencial, análisis de actividad asistencial, seguimiento de indicadores de calidad y gestión de listas de espera. Estos sistemas alimentan cuadros de mando para diferentes niveles organizativos (centros, distritos, áreas, dirección general).

Analítica Prescriptiva: Modelos predictivos para estratificación de pacientes según riesgo (identificar pacientes crónicos complejos que se beneficiarían de gestión intensiva), predicción de demanda de servicios (urgencias, hospitalización), y optimización de recursos (quirófanos, consultas).

Vigilancia Epidemiológica: Sistemas de detección temprana de brotes, monitorización en tiempo real de enfermedades de declaración obligatoria, análisis de tendencias de morbilidad. Durante COVID-19, capacidades de monitorización en near-real-time fueron críticas para toma de decisiones de salud pública.

Investigación con Datos Reales (Real World Evidence): Explotación de datos clínicos anonimizados para investigación epidemiológica, farmacovigilancia, evaluación de intervenciones sanitarias, y estudios de efectividad comparada.

11. Base Poblacional de Salud (BPS)

11.1. Concepto y Objetivos de la BPS

La Base Poblacional de Salud (BPS) es un repositorio integrado longitudinal que vincula información sanitaria individual anonimizada de toda la población andaluza, integrando datos de múltiples fuentes del SAS (atención primaria, hospitalaria, urgencias, farmacia, salud pública) con información sociodemográfica. La BPS permite seguir a individuos a lo largo del tiempo y a través de diferentes servicios sanitarios, proporcionando una vista 360 grados de utilización de servicios, trayectorias asistenciales, y outcomes de salud a nivel poblacional.

Los objetivos estratégicos de la BPS incluyen:

Planificación Sanitaria Basada en Evidencia: Dimensionar adecuadamente recursos sanitarios según necesidades poblacionales reales, identificar inequidades geográficas o socioeconómicas en acceso y utilización.
Vigilancia Epidemiológica Avanzada: Monitorizar incidencia y prevalencia de enfermedades, factores de riesgo, tendencias temporales, distribuciones geográficas, y alertas tempranas.
Evaluación de Calidad y Seguridad: Medir outcomes clínicos (readmisiones, complicaciones, mortalidad), comparar performance entre centros, identificar variabilidad de práctica clínica no justificada.
Investigación en Servicios de Salud: Estudios observacionales sobre efectividad de intervenciones, análisis coste-efectividad, identificación de mejores prácticas, evaluación de políticas sanitarias.
Apoyo a Gestión Clínica: Estratificación poblacional por riesgo, identificación de pacientes para programas de gestión de crónicos, predicción de demanda futura.

11.2. Arquitectura Técnica y Fuentes de Datos

La BPS integra datos de múltiples sistemas fuente mediante procesos ETL complejos que extraen, transforman (limpieza, estandarización, linkage de registros mediante identificadores), y cargan datos en un data warehouse diseñado para análisis longitudinales. Las principales fuentes de datos incluyen:

Base de Datos de Usuarios (BDU): Registro poblacional con datos demográficos, asignación a centro de salud, médico de familia, zona básica de salud. Identifica toda la población con tarjeta sanitaria.
Atención Primaria (AP): Consultas médicas y enfermería, diagnósticos codificados (CIE-10), procedimientos, derivaciones, vacunaciones. Datos de DIRAYA-AP.
Atención Hospitalaria: Episodios de hospitalización con diagnósticos al alta (CIE-10), procedimientos (CIE-9-MC), complicaciones, CMBD (Conjunto Mínimo Básico de Datos). Admisiones, cirugías, partos.
Urgencias: Episodios de urgencias con motivos de consulta, triaje, diagnósticos, procedimientos, destino al alta.
Farmacia: Prescripciones y dispensaciones farmacéuticas con principios activos (ATC), dosis, cantidades, fechas. Crítico para adherencia terapéutica y farmacovigilancia.
Laboratorios: Resultados de pruebas analíticas (bioquímica, hematología, microbiología) con valores numéricos codificados.
Mortalidad: Registros de defunción con causas de muerte (CIE-10), procedentes del Instituto de Estadística y Cartografía de Andalucía.
Datos Socioeconómicos: Indicadores de renta, educación, ocupación a nivel de sección censal para análisis de determinantes sociales de salud.

💡 Linkage de Registros: Desafío Técnico Clave

Integrar datos de fuentes dispares requiere vincular registros correspondientes al mismo individuo. Con identificador único (CIP – Código de Identificación Personal del SAS), el linkage es determinístico. Sin embargo, errores de captura, variaciones en apellidos, cambios temporales, y casos sin identificador requieren técnicas probabilísticas de record linkage que comparan múltiples campos (nombre, apellidos, fecha nacimiento, sexo, dirección) calculando probabilidad de match. Algoritmos de Fellegi-Sunter son estándar, con extensiones modernas mediante machine learning.

11.3. Modelado de Datos Longitudinal

La BPS emplea modelado dimensional orientado a eventos con granularidad individual y temporal fina. Una tabla de hechos central de «eventos sanitarios» registra cada contacto paciente-sistema sanitario (consulta, ingreso, urgencia, prescripción) con dimensiones: Paciente (con atributos demográficos y socioeconómicos), Tiempo (fecha evento, año, mes, día semana), Proveedor (profesional, centro, área gestión sanitaria), Diagnóstico/Procedimiento (códigos CIE/CIE-MC/ATC con jerarquías), Contexto (tipo contacto, especialidad, urgente/programado).

La dimensión Paciente incluye pseudoidentificador persistente (no reversible a identidad real) que permite seguimiento longitudinal mientras preserva privacidad. Attributes incluyen edad, sexo, zona básica salud, indicadores socioeconómicos agregados de su sección censal, estratos de riesgo calculados mediante algoritmos predictivos (ej: GMA – Grupos de Morbilidad Ajustada, similar a ACG).

11.4. Privacidad, Seguridad y Cumplimiento RGPD

Datos sanitarios son categoría especial de datos personales bajo RGPD (art. 9), requiriendo protecciones reforzadas. La BPS implementa múltiples capas de seguridad y privacidad:

Pseudonimización Irreversible: Los identificadores personales (nombre, DNI, CIP) se reemplazan con pseudoidentificadores generados mediante funciones hash criptográficas one-way con salt secreto. La tabla de correspondencia se almacena separadamente con acceso extremadamente restringido, permitiendo linkage de nuevos datos pero impidiendo reidentificación rutinaria.

Control de Acceso Granular: Acceso basado en roles con mínimo privilegio necesario. Investigadores solo acceden a datasets específicos para proyectos aprobados por comité ético. Logs de auditoría registran todos los accesos.

Cifrado: Datos en reposo cifrados con AES-256. Datos en tránsito mediante TLS. Claves gestionadas mediante HSM (Hardware Security Module).

Agregación y k-Anonymity: Resultados publicados se agregan para evitar identificación. Celdas con menos de k individuos (típicamente k=5) se suprimen o agregan.

Data Enclaves y Análisis Distribuido: Para análisis sobre datos extremadamente sensibles, investigadores trabajan en entornos seguros (enclaves) sin exportar microdatos. Alternativamente, análisis distribuido permite ejecutar queries sin transferir datos raw (ej: DataSHIELD).

Gobernanza y Comités Éticos: Todo uso investigación requiere aprobación de comités éticos de investigación. Contratos de uso de datos especifican finalidades, duración, publicaciones previstas. Auditorías periódicas verifican cumplimiento.

⚠️ Riesgos de Reidentificación

Incluso datos pseudonimizados pueden ser vulnerables a reidentificación mediante ataques de vinculación con datasets externos (ej: combinando fecha nacimiento, sexo, código postal con censo electoral), o inferencia mediante atributos quasi-identificadores raros (enfermedades muy infrecuentes, procedimientos únicos). Técnicas de privacidad diferencial, que añaden ruido calibrado a resultados manteniendo utilidad analítica mientras garantizan privacidad matemáticamente, son área activa de investigación e implementación gradual en BPS-like systems.

11.5. Casos de Uso y Aplicaciones Prácticas de la BPS

Vigilancia Epidemiológica COVID-19

Durante la pandemia, la BPS fue instrumental para monitorización en near-real-time de casos, hospitalizaciones, UCI, mortalidad estratificados por edad, comorbilidades, área geográfica. Permitió identificar poblaciones de alto riesgo, evaluar efectividad de intervenciones (confinamientos, vacunación), y planificar capacidad hospitalaria. Dashboards actualizados diariamente informaban decisiones de gestión de crisis.

Estratificación Poblacional y Gestión de Crónicos

Algoritmos predictivos sobre la BPS clasifican población en estratos de riesgo (saludables, riesgo bajo/medio/alto, crónicos complejos) basándose en diagnósticos, uso de servicios, farmacia, outcomes previos. Pacientes alto riesgo se identifican proactivamente para programas de gestión intensiva de casos (enfermeras gestoras, planes personalizados) que previenen descompensaciones, hospitalizaciones y visitas urgencias, mejorando calidad de vida y reduciendo costes.

Análisis de Inequidades en Salud

Vinculando datos sanitarios con indicadores socioeconómicos, la BPS permite identificar gradientes sociales en salud: poblaciones desfavorecidas presentan mayor morbilidad, menor esperanza de vida, peor acceso a servicios preventivos. Evidencia impulsa políticas dirigidas a reducir inequidades (programas en zonas desfavorecidas, outreach proactivo, acciones sobre determinantes sociales).

Farmacovigilancia y Efectividad Comparada

Estudios sobre efectividad y seguridad de medicamentos en condiciones de uso real (fuera de ensayos clínicos controlados). Identificación de efectos adversos raros, comparación de efectividad entre alternativas terapéuticas para misma indicación, análisis de adherencia y persistencia. Informa decisiones de inclusión en guías clínicas y financiación pública.

Evaluación de Calidad Asistencial

Medición de indicadores de calidad y seguridad: tasas de readmisión a 30 días (ajustadas por riesgo), complicaciones postoperatorias, infecciones nosocomiales, mortalidad hospitalaria, tiempo puerta-balón en IAM, tiempo puerta-aguja en ictus. Benchmarking entre centros identifica outliers (positivos y negativos) para aprendizaje y mejora continua. Públicamente, algunos indicadores alimentan rankings de hospitales para informar elección pacientes.

11.6. Proyectos e Iniciativas Relacionadas

BIS-SAS (Business Intelligence del SAS): Sistema corporativo de inteligencia de negocio que integra datos del SAS para análisis multidimensional, cuadros de mando estratégicos y operacionales, y reporting ad-hoc. Complementario a BPS, enfocado más en gestión operacional que investigación epidemiológica.

Integración con Proyectos Nacionales: La BPS alimenta y se beneficia de iniciativas españolas como el Sistema Nacional de Información de Salud, proyectos de uso secundario de datos sanitarios coordinados por el Ministerio de Sanidad, y contribuye a registros nacionales (cáncer, enfermedades raras, implantes).

Colaboración Europea: Participación en proyectos europeos de big data sanitario, redes de análisis distribuido para investigación multicéntrica (ej: redes OHDSI – Observational Health Data Sciences and Informatics usando modelo de datos común OMOP), y alineación con iniciativas de espacio europeo de datos sanitarios (European Health Data Space – EHDS).

12. Mapa Conceptual de Gestión de Datos Corporativos

🗺️ Arquitectura de Gestión de Datos Corporativos: Del Dato a la Decisión

GESTIÓN DATOS CORPORATIVOS
Transformando Datos en Valor de Negocio

⬇️ ⬇️ ⬇️ ⬇️ ⬇️

Almacenamiento
Data Warehouse
Data Marts
Data Lakes

Procesamiento
Big Data
Hadoop/Spark
ETL/ELT

Análisis
OLAP
Minería Datos
Machine Learning

Visualización
Dashboards
KPIs
Cuadros Mando

Gobernanza
Metadatos
Catálogos
Calidad

⬇️ Tecnologías y Herramientas

DW Cloud
Snowflake
BigQuery
Redshift
Synapse

Modelado
Estrella
Copo Nieve
Constelación
Lakehouse

Big Data Stack
HDFS/S3
Spark/Flink
Kafka
Hive

Tipos OLAP
MOLAP
ROLAP
HOLAP
Cubos

Algoritmos ML
Clasificación
Clustering
Regresión
Asociación

⬇️ Herramientas de Usuario

Power BI
Self-Service BI
DAX/Power Query

Tableau
Visualización
Exploración Visual

Python/R
Análisis Estadístico
ML Personalizado

Data Catalogs
Collibra
Alation
Atlas

DSS
Sistemas Soporte
Decisión

⬇️ Aplicación SAS / BPS

Base Poblacional Salud
Integración Longitudinal
8.5M Habitantes

Fuentes Datos
DIRAYA, CMBD
Farmacia, Lab
Mortalidad

Vigilancia Epidemiológica
COVID-19
Enf. Crónicas
Salud Pública

Gestión Clínica
Estratificación
Calidad
Eficiencia

Investigación
RWE Studies
Efectividad
Inequidades

Leyenda del Mapa Conceptual

Nivel 0: Concepto Fundamental

Nivel 1: Pilares Arquitectónicos

Nivel 2: Tecnologías Core

Nivel 3: Herramientas de Usuario

Nivel 4: Aplicación en SAS

13. Preguntas de Test – Evaluación de Conocimientos

Pregunta 1

¿Cuál de las siguientes es una característica fundamental que distingue un Data Warehouse de bases de datos operacionales (OLTP)?

A) El Data Warehouse utiliza siempre modelado normalizado en tercera forma normal (3NF)

B) El Data Warehouse es volátil, permitiendo actualizaciones y eliminaciones frecuentes de datos históricos

C) El Data Warehouse está orientado a temas de negocio, integra datos de múltiples fuentes, y mantiene historial temporal no volátil

D) El Data Warehouse prioriza transacciones ACID rápidas sobre capacidades analíticas complejas

Pregunta 2

En el modelado dimensional de un Data Warehouse sanitario, ¿cuál es la diferencia principal entre un esquema estrella y un esquema copo de nieve?

A) El esquema estrella usa múltiples tablas de hechos mientras el copo de nieve usa solo una

B) El esquema copo de nieve normaliza las dimensiones en jerarquías, mientras el esquema estrella mantiene dimensiones desnormalizadas

C) El esquema estrella no permite análisis temporal mientras el copo de nieve sí lo permite

D) El esquema copo de nieve es siempre más rápido en consultas que el esquema estrella

Pregunta 3

Respecto a las arquitecturas OLAP, ¿cuál afirmación sobre MOLAP vs ROLAP es CORRECTA?

A) MOLAP opera directamente sobre bases de datos relacionales traduciendo operaciones a SQL dinámico

B) ROLAP almacena datos en estructuras multidimensionales propietarias con agregaciones precalculadas

C) MOLAP ofrece generalmente mejor rendimiento de consulta pero tiene limitaciones de escalabilidad para cubos muy grandes

D) ROLAP requiere siempre copiar datos a arrays multidimensionales antes de cualquier análisis

Pregunta 4

En el proceso KDD (Knowledge Discovery in Databases), ¿cuál es el orden correcto de las fases principales?

A) Minería de Datos → Selección → Preprocesamiento → Transformación → Evaluación

B) Comprensión del Dominio → Selección → Preprocesamiento → Transformación → Minería de Datos → Evaluación

C) Evaluación → Comprensión → Transformación → Minería → Selección

D) Selección → Minería de Datos → Preprocesamiento → Evaluación → Transformación

Pregunta 5

¿Cuál de las siguientes técnicas de minería de datos sería más apropiada para segmentar pacientes en grupos homogéneos sin etiquetas predefinidas?

A) Clasificación mediante árboles de decisión

B) Clustering mediante k-means o clustering jerárquico

C) Regresión lineal múltiple

D) Reglas de asociación con algoritmo Apriori

Pregunta 6

Las «5 V’s» caracterizan los desafíos de Big Data. ¿Cuál de las siguientes NO es una de las 5 V’s?

A) Volumen (escala masiva de datos)

B) Velocidad (generación y procesamiento en tiempo real)

C) Validación (verificación automática de exactitud)

D) Variedad (datos estructurados, semi-estructurados, no estructurados)

Pregunta 7

En el ecosistema Hadoop, ¿cuál es la función principal de YARN (Yet Another Resource Negotiator)?

A) Sistema de archivos distribuido que particiona y replica datos en múltiples nodos

B) Gestor de recursos del cluster que permite ejecutar múltiples frameworks de procesamiento sobre el mismo cluster

C) Motor de consultas SQL sobre datos en HDFS compatible con sintaxis HiveQL

D) Framework de programación MapReduce para procesamiento batch paralelo

Pregunta 8

¿Qué ventaja principal ofrece Apache Spark sobre MapReduce tradicional?

A) Spark requiere menos memoria que MapReduce para procesar el mismo volumen de datos

B) Spark mantiene datos en memoria entre operaciones cuando es posible, acelerando significativamente cargas de trabajo iterativas

C) Spark solo funciona en cloud mientras MapReduce requiere hardware dedicado

D) Spark no soporta procesamiento de streams, solo batch, haciéndolo más simple que MapReduce

Pregunta 9

En el contexto de Sistemas de Soporte a la Decisión (DSS), ¿cuál es la diferencia entre un dashboard operacional y un scorecard estratégico?

A) Los dashboards monitorean métricas en tiempo real para acción inmediata, mientras los scorecards rastrean progreso hacia objetivos estratégicos a largo plazo

B) Los scorecards solo se usan en finanzas mientras los dashboards se usan en operaciones

C) Los dashboards requieren herramientas especializadas caras mientras los scorecards se pueden hacer en Excel

D) No hay diferencia significativa, son términos intercambiables

Pregunta 10

Un KPI efectivo debe cumplir los criterios SMART. ¿Qué significa «SMART» en este contexto?

A) Simple, Múltiple, Automatizado, Rentable, Técnico

B) Específico, Medible, Alcanzable, Relevante, Temporal

C) Seguro, Mantenible, Auditable, Robusto, Transparente

D) Sistemático, Modular, Adaptable, Replicable, Transversal

Pregunta 11

¿Cuál es la función principal de un catálogo de datos (data catalog) en una organización?

A) Almacenar físicamente todos los datos de la organización en un repositorio centralizado

B) Proporcionar un inventario searchable de activos de datos con metadatos, descripciones, propietarios y permisos

C) Reemplazar el data warehouse como sistema principal de análisis

D) Ejecutar automáticamente procesos ETL sin intervención humana

Pregunta 12

En gestión de metadatos, ¿qué es el «lineage» de datos?

A) El tipo de dato (entero, cadena, fecha) de cada columna en una base de datos

B) El mapeo completo del ciclo de vida de datos desde fuentes originales a través de transformaciones hasta reportes finales

C) La frecuencia de actualización de un dataset específico

D) El número de usuarios que acceden a un dataset mensualmente

Pregunta 13

¿Cuál es el sistema corporativo central del SAS que integra la historia clínica digital única y múltiples módulos funcionales?

A) BPS (Base Poblacional de Salud)

B) CMBD (Conjunto Mínimo Básico de Datos)

C) DIRAYA

D) SICA (Sistema de Información de Citas y Admisiones)

Pregunta 14

La Base Poblacional de Salud (BPS) del SAS integra datos de múltiples fuentes. ¿Cuál de las siguientes NO es típicamente una fuente de datos para la BPS?

A) Episodios de hospitalización con diagnósticos al alta (CMBD)

B) Prescripciones y dispensaciones farmacéuticas

C) Preferencias personales de entretenimiento y redes sociales de pacientes

D) Datos de mortalidad con causas de muerte

Pregunta 15

¿Cuál es el objetivo principal de la pseudonimización en la Base Poblacional de Salud?

A) Reducir el tamaño de los archivos de datos para ahorrar espacio de almacenamiento

B) Permitir seguimiento longitudinal de pacientes mientras se protege su privacidad impidiendo reidentificación rutinaria

C) Acelerar las consultas mediante índices en campos pseudonimizados

D) Facilitar la integración con sistemas de facturación externa

Pregunta 16

En el contexto de la BPS, ¿qué técnica permite identificar pacientes de alto riesgo para gestión intensiva de casos?

A) Análisis OLAP mediante cubos multidimensionales estáticos

B) Estratificación poblacional mediante algoritmos predictivos que clasifican población en estratos de riesgo

C) Clustering demográfico básico usando solo edad y sexo

D) Selección aleatoria de una muestra representativa de la población

Pregunta 17

¿Cuál es una diferencia clave entre ETL (Extract, Transform, Load) tradicional y ELT (Extract, Load, Transform) moderno?

A) ETL extrae datos de fuentes mientras ELT no puede conectar a fuentes externas

B) ELT carga primero datos raw en el destino y ejecuta transformaciones in situ aprovechando el poder computacional del data warehouse

C) ETL solo funciona con datos estructurados mientras ELT solo funciona con datos no estructurados

D) ELT requiere siempre infraestructura on-premise mientras ETL es cloud-only

Pregunta 18

¿Qué operación OLAP permite navegar desde un nivel agregado (ej: Año) hacia niveles de mayor detalle (ej: Trimestre → Mes)?

A) Slice

B) Dice

C) Drill-down

D) Pivot

Pregunta 19

En el Balanced Scorecard de Kaplan y Norton aplicado a sanidad pública, ¿cuál de las siguientes NO es una de las cuatro perspectivas típicas?

A) Financiera/Sostenibilidad

B) Cliente/Usuario (satisfacción pacientes)

C) Competencia con sector privado

D) Aprendizaje y Crecimiento (capacitación personal)

Pregunta 20

¿Cuál herramienta de BI es conocida por su enfoque de «data-modeling-first» con LookML y ejecución directa en el data warehouse sin extraer datos?

A) Microsoft Power BI

B) Tableau

C) Looker (Google)

D) Qlik Sense

Pregunta 21

¿Cuál es el estado actual (2024-2025) del ecosistema Hadoop según las tendencias de la industria?

A) Hadoop MapReduce sigue siendo el motor de procesamiento preferido sobre Spark

B) Hadoop como suite monolítica ha perdido momentum; Spark lo reemplaza en procesamiento, aunque componentes como Hive Metastore persisten

C) Hadoop es obligatorio para cualquier implementación Big Data y no existen alternativas viables

D) YARN ha sido completamente reemplazado por Docker Swarm en todas las organizaciones

Pregunta 22

¿Qué desafío específico de privacidad enfrentan los datos sanitarios en la BPS bajo el RGPD?

A) Datos sanitarios no están cubiertos por RGPD

B) Datos sanitarios son categoría especial (art. 9 RGPD) requiriendo protecciones reforzadas incluyendo pseudonimización, cifrado y controles de acceso estrictos

C) RGPD permite compartir datos sanitarios libremente sin consentimiento siempre que sea con fines de investigación

D) Solo se aplica RGPD a datos de pacientes privados, no del sistema público

Pregunta 23

Durante la pandemia COVID-19, ¿cómo contribuyó específicamente la BPS a la gestión de la crisis sanitaria?

A) La BPS no se utilizó durante la pandemia por restricciones de privacidad

B) Monitorización near-real-time de casos, hospitalizaciones, mortalidad estratificados por comorbilidades y área, informando decisiones de gestión de crisis

C) Solo se usó para facturación de pruebas COVID-19

D) Su uso se limitó exclusivamente a investigación retrospectiva post-pandemia

Pregunta 24

¿Cuál cloud data warehouse es conocido por su arquitectura multi-cluster que separa almacenamiento y cómputo con escalado automático?

A) Oracle Database on-premise

B) Snowflake

C) MySQL Community Edition

D) Apache Hive

Pregunta 25

En el contexto de gobernanza de datos para la BPS, ¿qué significa «k-anonymity» y por qué es importante?

A) Un método de cifrado que usa claves de k bits de longitud

B) Una propiedad que garantiza que cada registro en un dataset es indistinguible de al menos k-1 otros registros, reduciendo riesgo de reidentificación

C) Una técnica de compresión que reduce el tamaño de datasets en un factor k

D) Un estándar de interoperabilidad para intercambio de datos entre k sistemas diferentes

14. Respuestas Correctas y Justificaciones

Soluciones Detalladas del Test de Evaluación

Pregunta 1: Respuesta Correcta: C

Justificación: Las cuatro características fundamentales que distinguen un Data Warehouse según la definición de Bill Inmon son: (1) Orientado a Temas – organizado por áreas de negocio relevantes no por procesos transaccionales, (2) Integrado – consolida datos de fuentes heterogéneas con transformaciones consistentes, (3) No Volátil – los datos una vez cargados no se modifican ni eliminan, solo se añaden nuevos, y (4) Variante en el Tiempo – incluye dimensión temporal explícita para análisis históricos. La opción A es incorrecta porque los DW típicamente usan modelado dimensional (esquema estrella) desnormalizado para rendimiento, no 3NF. La opción B es incorrecta porque el DW es precisamente NO volátil. La opción D describe OLTP, no OLAP/DW.

Pregunta 2: Respuesta Correcta: B

Justificación: En un esquema estrella, las dimensiones están completamente desnormalizadas – toda la información de una dimensión (incluyendo sus jerarquías) se almacena en una única tabla con redundancia aceptada. En un esquema copo de nieve, las dimensiones se normalizan creando tablas adicionales para las jerarquías – por ejemplo, la dimensión Centro_Salud podría separarse en Centro_Salud → Distrito → Área_Sanitaria → Provincia. Esto reduce redundancia pero aumenta complejidad de consultas (más joins) y puede degradar rendimiento. La opción A invierte las definiciones. La opción C es incorrecta: ambos esquemas soportan análisis temporal. La opción D es falsa: generalmente el esquema estrella es más rápido por tener menos joins.

Pregunta 3: Respuesta Correcta: C

Justificación: MOLAP (Multidimensional OLAP) almacena datos en estructuras multidimensionales propietarias (arrays densos/sparse) con agregaciones precalculadas, lo que proporciona rendimiento de consulta extremadamente rápido pero tiene limitaciones de escalabilidad cuando los cubos son muy grandes o tienen alta dimensionalidad. ROLAP (Relational OLAP) opera directamente sobre el data warehouse relacional traduciendo dinámicamente operaciones OLAP en SQL, lo que proporciona máxima escalabilidad pero generalmente menor rendimiento. La opción A describe ROLAP, no MOLAP. La opción B describe MOLAP, no ROLAP. La opción D invierte correctamente: es MOLAP quien copia datos a estructuras propietarias, no ROLAP.

Pregunta 4: Respuesta Correcta: B

Justificación: El proceso KDD (Knowledge Discovery in Databases) sigue estas fases secuenciales iterativas: (1) Comprensión del Dominio – entender el problema de negocio y objetivos, (2) Selección – identificar y extraer datasets relevantes, (3) Preprocesamiento – limpiar datos manejando valores faltantes y outliers, (4) Transformación – reducción dimensionalidad, normalización, feature engineering, (5) Minería de Datos – aplicar algoritmos de aprendizaje (clasificación, clustering, etc.), (6) Evaluación – interpretar y validar patrones descubiertos, (7) Consolidación del Conocimiento – integrar en sistemas de decisión. El proceso es iterativo: los resultados de evaluación pueden requerir volver a fases anteriores para refinar el análisis.

Pregunta 5: Respuesta Correcta: B

Justificación: El clustering (agrupamiento) es una técnica de aprendizaje NO supervisado que agrupa instancias similares sin etiquetas o clases predefinidas. Es ideal para segmentación de pacientes donde queremos descubrir grupos homogéneos naturales sin saber a priori cuántos grupos existen o qué características los definen. Algoritmos comunes incluyen k-means (requiere especificar k grupos), clustering jerárquico (construye dendrogramas), y DBSCAN (basado en densidad). La clasificación (opción A) es supervisada y requiere etiquetas de entrenamiento. La regresión lineal (opción C) predice valores numéricos continuos, no grupos. Las reglas de asociación (opción D) descubren co-ocurrencias frecuentes, no segmentación.

Pregunta 6: Respuesta Correcta: C

Justificación: Las 5 V’s del Big Data son: (1) Volumen – escala masiva (terabytes a petabytes), (2) Velocidad – generación y necesidad de procesamiento en tiempo real o near-real-time, (3) Variedad – datos estructurados, semi-estructurados y no estructurados de fuentes heterogéneas, (4) Veracidad – incertidumbre, calidad, ruido, inconsistencias en los datos, y (5) Valor – el objetivo último de extraer insights accionables y valor de negocio de los datos. «Validación» no es una de las 5 V’s formales, aunque la verificación de calidad está implícita en «Veracidad».

Pregunta 7: Respuesta Correcta: B

Justificación: YARN (Yet Another Resource Negotiator), introducido en Hadoop 2.0, es el gestor de recursos del cluster que desacopla la gestión de recursos (CPU, memoria) de la lógica de procesamiento de aplicaciones. Esto permite ejecutar múltiples frameworks diferentes (MapReduce, Spark, Flink, Tez) sobre el mismo cluster Hadoop compartiendo recursos eficientemente. YARN incluye un ResourceManager global y NodeManagers en cada nodo que gestionan containers donde ejecutan las aplicaciones. La opción A describe HDFS, no YARN. La opción C describe Hive. La opción D describe MapReduce.

Pregunta 8: Respuesta Correcta: B

Justificación: La ventaja fundamental de Apache Spark sobre MapReduce es su capacidad de mantener datos en memoria RAM entre operaciones (cuando la memoria es suficiente), evitando las múltiples escrituras/lecturas a disco que MapReduce realiza entre cada fase Map y Reduce. Esto acelera dramáticamente cargas de trabajo iterativas comunes en machine learning (donde se pasan múltiples veces sobre los mismos datos) – Spark puede ser hasta 100x más rápido que MapReduce para este tipo de workloads. Spark también ofrece APIs más expresivas (DataFrames, Spark SQL) y soporta tanto batch como streaming. La opción A es incorrecta: Spark típicamente requiere MÁS memoria que MapReduce. La opción C es falsa: Spark funciona on-premise y cloud, y MapReduce también. La opción D es falsa: Spark SÍ soporta streaming (Spark Streaming, Structured Streaming).

Pregunta 9: Respuesta Correcta: A

Justificación: Un dashboard operacional monitoriza métricas en tiempo real o near-real-time (ej: ocupación actual de camas de urgencias, ambulancias en ruta, pacientes esperando triaje) para permitir identificación rápida de problemas y respuesta inmediata. Se actualiza frecuentemente (segundos, minutos, horas) y se enfoca en KPIs operacionales del día a día. Un scorecard estratégico (como el Balanced Scorecard) rastrea progreso hacia objetivos estratégicos de largo plazo mediante KPIs que se actualizan típicamente mensual o trimestralmente, evalúa desempeño contra targets, identifica gaps estratégicos. Piense: dashboard = velocímetro de coche (operacional), scorecard = evaluación de desempeño anual (estratégico). Las opciones B, C y D son incorrectas.

Pregunta 10: Respuesta Correcta: B

Justificación: SMART es un acrónimo para criterios de diseño de KPIs efectivos: Específico (define claramente qué se mide sin ambigüedad), Medible (cuantificable con datos disponibles y fiables), Alcanzable (realista dado recursos y contexto), Relevante (alineado con objetivos estratégicos, impacta decisiones reales), y Temporal (definido periodo de medición, permite tracking de tendencias). Por ejemplo, «Reducir tiempo medio de espera para cirugía programada a menos de 60 días para el Q4 2025» es SMART. «Mejorar la sanidad» no lo es (no específico, no medible, no temporal). Las otras opciones presentan acrónimos incorrectos que no corresponden a la metodología SMART establecida.

Pregunta 11: Respuesta Correcta: B

Justificación: Un catálogo de datos (data catalog) es un inventario centralizado searchable de todos los activos de datos de una organización, funcionando como «Google para datos internos». Proporciona metadatos (descripciones, esquemas, calidad, propietarios, permisos, lineage) que permiten a usuarios descubrir qué datos existen, entender su significado y contexto, determinar si son apropiados para sus necesidades, y acceder a ellos (si tienen permisos). Los catálogos modernos usan crawlers automatizados que escanean sources extrayendo metadatos técnicos, y ML para sugerir clasificaciones. NO almacenan los datos mismos físicamente (opción A), NO reemplazan el DW (opción C), y NO ejecutan ETL (opción D) – esas son funciones de otros sistemas. El catálogo solo indexa y proporciona descubrimiento.

Pregunta 12: Respuesta Correcta: B

Justificación: El lineage (linaje) de datos mapea el ciclo de vida completo end-to-end de datos: desde fuentes originales (bases de datos operacionales, archivos, APIs), a través de todas las transformaciones ETL/ELT (joins, agregaciones, filtros, cálculos), pasando por data warehouses y data marts, hasta reportes finales, dashboards y modelos ML que los consumen. Proporciona visibilidad respondiendo: ¿De dónde vienen estos datos? ¿Qué transformaciones se aplicaron? ¿Quién los modificó y cuándo? ¿Qué downstream depende de ellos? El lineage es crítico para análisis de impacto (antes de cambiar un campo, saber qué se rompe), root cause analysis (rastrear hacia atrás para encontrar el origen de un problema), cumplimiento regulatorio (documentar procesamiento de datos personales para RGPD), y comprensión de datos (entender cómo se derivó una métrica compleja). La opción A describe tipos de datos, C describe frecuencia de actualización, D describe métricas de uso.

Pregunta 13: Respuesta Correcta: C

Justificación: DIRAYA es el sistema corporativo central del Servicio Andaluz de Salud que integra la historia clínica digital única (HCDU) de todos los pacientes andaluces, junto con múltiples módulos funcionales: gestión de citas, prescripción electrónica, acceso a pruebas diagnósticas, documentación clínica, y más. Basado en tecnología Oracle, DIRAYA es el repositorio operacional primario (OLTP) que soporta las operaciones diarias de los más de 100,000 profesionales del SAS en más de 1,500 centros. La BPS (opción A) es el data warehouse analítico, no el sistema operacional. El CMBD (opción B) es un conjunto de datos específico de altas hospitalarias. SICA (opción D) es un módulo de admisiones, no el sistema central completo.

Pregunta 14: Respuesta Correcta: C

Justificación: La Base Poblacional de Salud integra datos exclusivamente sanitarios y socioeconómicos relevantes para salud pública e investigación clínica. Las fuentes incluyen: episodios de hospitalización con diagnósticos (CMBD – opción A), prescripciones y dispensaciones farmacéuticas (opción B), consultas de atención primaria, urgencias, resultados de laboratorio, datos de mortalidad con causas de muerte (opción D), vacunaciones, datos demográficos y socioeconómicos agregados (renta, educación por zona). NO incluye preferencias de entretenimiento ni datos de redes sociales personales (opción C) – estos datos no son sanitarios, plantearían problemas éticos y de privacidad significativos, y no aportan valor para los objetivos de la BPS. Los datos integrados deben ser relevantes para salud, planificación sanitaria o investigación biomédica.

Pregunta 15: Respuesta Correcta: B

Justificación: La pseudonimización en la BPS reemplaza identificadores directos (nombre, DNI, CIP) con pseudoidentificadores generados mediante funciones hash criptográficas one-way. Esto logra dos objetivos simultáneos críticos: (1) Permite seguimiento longitudinal – el mismo paciente siempre genera el mismo pseudoidentificador, permitiendo vincular todos sus registros sanitarios a lo largo del tiempo y a través de diferentes servicios (consultas, hospitalizaciones, farmacia, etc.), lo cual es esencial para análisis epidemiológicos y evaluación de trayectorias asistenciales, y (2) Protege privacidad – sin la tabla de correspondencia (guardada separadamente con acceso extremadamente restringido), es computacionalmente inviable revertir el pseudoidentificador a la identidad real, impidiendo reidentificación rutinaria. La opción A (reducir tamaño) es incorrecta: la pseudonimización no cambia significativamente el tamaño. La opción C (acelerar consultas) es tangencial: aunque índices pueden ayudar, no es el objetivo primario. La opción D (facturación) es incorrecta: sistemas de facturación requieren identidad real y no usan la BPS pseudonimizada.

Pregunta 16: Respuesta Correcta: B

Justificación: La estratificación poblacional mediante algoritmos predictivos es la técnica clave para identificar pacientes de alto riesgo. Estos algoritmos (como GMA – Grupos de Morbilidad Ajustada, ACG – Adjusted Clinical Groups, o modelos predictivos personalizados) analizan el historial completo de cada paciente en la BPS: diagnósticos crónicos, hospitalizaciones previas, uso de urgencias, prescripciones farmacéuticas múltiples, comorbilidades, edad, etc. Basándose en estos datos, calculan una puntuación de riesgo y clasifican la población en estratos (saludables, riesgo bajo, medio, alto, crónicos complejos). Los pacientes identificados como alto riesgo se asignan proactivamente a programas de gestión intensiva de casos con enfermeras gestoras, planes personalizados, seguimiento estrecho, que previenen descompensaciones y readmisiones, mejorando outcomes y reduciendo costes. La opción A (OLAP) es para análisis exploratorio, no predicción. La opción C (clustering demográfico básico) es demasiado simplista. La opción D (selección aleatoria) no identifica específicamente pacientes de alto riesgo.

Pregunta 17: Respuesta Correcta: B

Justificación: La diferencia fundamental entre ETL (Extract, Transform, Load) tradicional y ELT (Extract, Load, Transform) moderno es el ORDEN de las operaciones y DÓNDE se ejecutan las transformaciones. En ETL tradicional, los datos se extraen de las fuentes, se transforman en un servidor de staging intermedio (aplicando limpiezas, agregaciones, joins, cálculos), y finalmente se cargan en el data warehouse ya transformados. En ELT moderno, los datos se extraen de las fuentes y se cargan INMEDIATAMENTE en el destino (data warehouse o data lake) en su formato RAW original sin transformar. Las transformaciones se ejecutan DESPUÉS, directamente en el data warehouse/lake, aprovechando su poder computacional masivamente paralelo (especialmente en plataformas cloud como Snowflake, BigQuery, Redshift). ELT ha ganado popularidad porque: (1) los DW modernos cloud tienen capacidad de cómputo elástica suficiente para transformaciones pesadas, (2) mantener datos raw proporciona flexibilidad para re-procesar con lógicas diferentes, (3) simplifica arquitectura eliminando servidores de staging. Las opciones A, C, D son incorrectas.

Pregunta 18: Respuesta Correcta: C

Justificación: Drill-down es la operación OLAP que permite navegar desde un nivel agregado de una jerarquía dimensional hacia niveles de mayor detalle/granularidad. Por ejemplo, en una dimensión temporal: Año → Trimestre → Mes → Semana → Día. O en una dimensión geográfica: Comunidad Autónoma → Provincia → Área Sanitaria → Distrito → Centro de Salud. Drill-down es fundamental para análisis exploratorio: un gestor detecta un problema a nivel agregado (ej: aumento de readmisiones anuales) y hace drill-down para identificar en qué trimestre/mes/hospital específico ocurre. Slice (opción A) selecciona un único valor de una dimensión, reduciendo dimensionalidad del cubo. Dice (opción B) selecciona rangos en múltiples dimensiones creando un sub-cubo. Pivot (opción D) rota el cubo para cambiar qué dimensiones se muestran en filas vs columnas. La operación inversa a drill-down es drill-up/roll-up: agregar desde detalle hacia niveles superiores.

Pregunta 19: Respuesta Correcta: C

Justificación: El Balanced Scorecard de Kaplan y Norton define cuatro perspectivas equilibradas: (1) Financiera (en sector público: sostenibilidad fiscal, eficiencia en uso de recursos, no maximización de beneficio), (2) Cliente/Usuario (satisfacción pacientes, calidad percibida, accesibilidad, tiempos de espera), (3) Procesos Internos (eficiencia operacional, calidad clínica, seguridad del paciente, tiempos de proceso), y (4) Aprendizaje y Crecimiento (capacitación de personal, innovación, sistemas de información, cultura organizacional). «Competencia con sector privado» (opción C) NO es una perspectiva del BSC. Aunque la sanidad pública y privada coexisten, el objetivo del sistema público no es competir con el privado sino proporcionar cobertura universal de calidad. El BSC busca equilibrio entre estas cuatro perspectivas con relaciones causa-efecto: invertir en aprendizaje mejora procesos, que mejora satisfacción cliente, que mejora outcomes y sostenibilidad.

Pregunta 20: Respuesta Correcta: C

Justificación: Looker (adquirido por Google Cloud) se distingue por su enfoque único «data-modeling-first» mediante LookML (Looker Modeling Language), un lenguaje declarativo para definir modelos semánticos de datos que describe dimensiones, métricas, relaciones y lógica de negocio. Los analistas escriben modelos LookML una vez, y todos los usuarios consumen esos modelos consistentemente. Además, Looker NO extrae datos del data warehouse a un motor analítico propio – en su lugar, traduce dinámicamente las consultas de usuarios a SQL optimizado que se ejecuta directamente en el DW subyacente (BigQuery, Redshift, Snowflake, etc.), aprovechando todo su poder computacional. Esto proporciona escalabilidad y datos siempre actualizados (no hay cache desactualizado). Power BI (opción A), Tableau (opción B), y Qlik Sense (opción D) típicamente importan datos a sus propios motores in-memory para procesamiento, aunque también soportan modos DirectQuery/Live para conectividad en vivo.

Pregunta 21: Respuesta Correcta: B

Justificación: En 2024-2025, Hadoop como suite monolítica integrada ha perdido significativamente momentum y relevancia en comparación con su pico de popularidad en los años 2010s. MapReduce está prácticamente obsoleto para nuevos proyectos: Apache Spark lo ha reemplazado como motor de procesamiento distribuido preferido por su rendimiento superior (hasta 100x más rápido en cargas in-memory) y APIs más expresivas. Los grandes vendors de distribuciones Hadoop han desaparecido o pivotado: Cloudera y Hortonworks se fusionaron y ahora se enfocan en plataformas cloud y Kubernetes, MapR cerró operaciones. SIN EMBARGO, componentes individuales del ecosistema persisten y siguen siendo relevantes: HDFS todavía se usa en algunos deployments on-premise grandes, Hive Metastore es el estándar de facto para metadatos de data lakes incluso en arquitecturas Spark-first, Apache Kafka (streaming) es ubicuo. La tendencia clara es hacia arquitecturas cloud-native: object storage (S3/GCS/Azure Blob) reemplaza HDFS, Kubernetes orquesta Spark en lugar de YARN, servicios administrados (Databricks, AWS EMR, Google Dataproc) eliminan complejidad operacional. La opción A es falsa: Spark ha superado a MapReduce. La opción C es falsa: existen múltiples alternativas viables. La opción D es falsa: YARN persiste aunque Kubernetes gana adopción.

Pregunta 22: Respuesta Correcta: B

Justificación: Los datos sanitarios son clasificados como «categoría especial de datos personales» bajo el artículo 9 del RGPD (Reglamento General de Protección de Datos), junto con datos genéticos, biométricos, datos sobre orientación sexual, creencias religiosas, afiliación sindical, etc. Esta clasificación especial requiere protecciones reforzadas más allá de las aplicables a datos personales ordinarios. Para la BPS, esto implica: (1) Base legal explícita para procesamiento (típicamente interés público en salud pública, investigación científica, o gestión de servicios sanitarios según art. 9.2.h-i-j), (2) Pseudonimización obligatoria para usos secundarios, (3) Cifrado de datos en reposo y en tránsito, (4) Controles de acceso estrictos basados en roles con mínimo privilegio, (5) Auditorías de acceso completas, (6) Evaluaciones de impacto en protección de datos (DPIA) para nuevos usos, (7) Acuerdos formales y aprobación ética para usos investigación, (8) Derecho de supresión limitado (puede prevalecer interés público sanitario), (9) Particular atención a riesgo de reidentificación. La opción A es falsa: RGPD SÍ cubre datos sanitarios, especialmente. La opción C es falsa: NO se puede compartir libremente sin base legal y salvaguardas. La opción D es falsa: RGPD aplica igual a datos de sistema público y privado.

Pregunta 23: Respuesta Correcta: B

Justificación: Durante la pandemia COVID-19, la Base Poblacional de Salud del SAS fue instrumental para la gestión de la crisis sanitaria proporcionando capacidades críticas de monitorización y análisis en tiempo near-real-time. Específicamente: (1) Tracking de casos confirmados, sospechosos, hospitalizaciones, ingresos UCI, y mortalidad actualizado diariamente o incluso con mayor frecuencia durante picos críticos, (2) Estratificación por múltiples dimensiones: edad, sexo, comorbilidades (diabetes, hipertensión, EPOC, inmunosupresión), área geográfica (provincia, distrito, municipio), permitiendo identificar poblaciones de alto riesgo y focalizar recursos, (3) Análisis de trayectorias asistenciales: desde diagnóstico en atención primaria → hospitalización → UCI → alta/exitus, identificando cuellos de botella y prediciendo demanda de recursos, (4) Evaluación de efectividad de intervenciones: impacto de confinamientos en reducción de casos, efectividad de vacunación en prevención de hospitalizaciones graves y mortalidad, (5) Dashboards actualizados continuamente que informaban decisiones operacionales (gestión de capacidad hospitalaria, redistribución de pacientes entre hospitales) y estratégicas (políticas de salud pública, comunicación ciudadana). La opción A es falsa: la BPS se usó intensivamente con base legal de interés público en salud pública. La opción C es falsa: el uso fue mucho más amplio que facturación. La opción D es falsa: el uso fue principalmente en tiempo real durante la crisis, no solo retrospectivo.

Pregunta 24: Respuesta Correcta: B

Justificación: Snowflake es el cloud data warehouse que se distingue por su arquitectura única multi-cluster que separa completamente almacenamiento y cómputo. El almacenamiento es sobre object storage cloud (S3 en AWS, Blob en Azure, GCS en Google Cloud) compartido entre todos los usuarios, mientras que el cómputo se proporciona mediante «virtual warehouses» (clusters de cómputo) independientes que se pueden escalar verticalmente (más potencia por cluster: X-Small a 6X-Large) u horizontalmente (más clusters concurrentes) de forma elástica y automática según demanda. Características clave incluyen: separación storage-compute permite escalar independientemente, auto-suspend de warehouses idle para reducir costos, auto-resume cuando llega workload, clonado instantáneo de bases de datos completas (zero-copy cloning), time-travel para consultar snapshots históricos, soporte nativo para datos semi-estructurados (JSON, Avro, Parquet), y pricing transparente de pago por uso (storage por TB-mes + cómputo por créditos-segundo). Oracle Database (opción A) es RDBMS tradicional on-premise, no cloud DW. MySQL (opción C) es RDBMS open source no especializado en analytics. Apache Hive (opción D) es engine SQL sobre Hadoop, no cloud DW administrado.

Pregunta 25: Respuesta Correcta: B

Justificación: K-anonymity es una propiedad de datasets anonimizados que garantiza que cada registro (individuo) en el dataset es indistinguible de al menos k-1 otros registros respecto a un conjunto de atributos quasi-identificadores (atributos que en combinación podrían potencialmente identificar individuos, como fecha de nacimiento, sexo, código postal). Por ejemplo, si k=5, entonces para cada combinación de quasi-identificadores (ej: «mujer, nacida 1980, código postal 41010 Sevilla»), debe haber al menos 5 registros con esa misma combinación. Esto se logra mediante técnicas de supresión (eliminar valores específicos) o generalización (reemplazar valores específicos con categorías más amplias: «1980» → «1980-1989», «41010» → «41XXX»). K-anonymity reduce significativamente el riesgo de reidentificación mediante ataques de vinculación con datasets externos, ya que incluso si un atacante sabe que una persona específica está en el dataset, no puede determinar cuál de los k registros indistinguibles corresponde a esa persona. En la BPS, k-anonymity (típicamente k≥5) se aplica a datos agregados publicados y a algunos datasets de investigación. Sin embargo, k-anonymity tiene limitaciones: no protege contra ataques de homogeneidad (si los k registros tienen el mismo valor sensible) ni contra ataques de conocimiento previo, por lo que técnicas más avanzadas como l-diversity, t-closeness, o privacidad diferencial complementan k-anonymity en sistemas sofisticados. La opción A describe cifrado, no k-anonymity. La opción C describe compresión. La opción D describe interoperabilidad.

15. Referencias Bibliográficas y Recursos

15.1. Libros Técnicos Fundamentales

Kimball, R. & Ross, M. (2013). The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling (3rd ed.). Wiley. – Biblia del modelado dimensional.
Inmon, W. H. (2005). Building the Data Warehouse (4th ed.). Wiley. – Enfoque top-down del padre del DW.
Han, J., Kamber, M., & Pei, J. (2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann. – Texto comprehensive de minería de datos.
White, T. (2015). Hadoop: The Definitive Guide (4th ed.). O’Reilly. – Referencia completa del ecosistema Hadoop.
Karau, H., Konwinski, A., Wendell, P., & Zaharia, M. (2015). Learning Spark. O’Reilly. – Guía práctica de Apache Spark.
Provost, F. & Fawcett, T. (2013). Data Science for Business. O’Reilly. – Aplicación práctica de analytics a decisiones de negocio.

15.2. Documentación de Productos y Plataformas

Snowflake Documentation. (2024). https://docs.snowflake.com/ – Documentación oficial cloud DW.
Google BigQuery Documentation. (2024). https://cloud.google.com/bigquery/docs – Data warehouse serverless Google.
Microsoft Power BI Documentation. (2024). https://docs.microsoft.com/power-bi/ – Plataforma BI líder.
Apache Spark Documentation. (2024). https://spark.apache.org/docs/ – Motor procesamiento distribuido.
Tableau Knowledge Base. (2024). https://kb.tableau.com/ – Herramienta visualización BI.

15.3. Recursos Específicos del SAS y Junta de Andalucía

Servicio Andaluz de Salud. (2024). Portal del SAS. https://www.sspa.juntadeandalucia.es/servicioandaluzdesalud/ – Información oficial del SAS.
Junta de Andalucía. (2024). Estrategia de Transformación Digital. – Iniciativas digitales autonómicas.
Escuela Andaluza de Salud Pública. Publicaciones sobre sistemas de información sanitaria y analítica de datos en salud.
Consejería de Salud y Consumo. Memorias anuales y planes estratégicos con indicadores y KPIs del sistema sanitario andaluz.

15.4. Normativa y Regulación

Reglamento (UE) 2016/679 (RGPD). Protección de datos personales, especialmente art. 9 sobre datos sanitarios.
Ley Orgánica 3/2018, de Protección de Datos Personales y garantía de los derechos digitales (LOPDGDD).
Ley 41/2002, básica reguladora de la autonomía del paciente y de derechos y obligaciones en materia de información y documentación clínica.
Real Decreto 3/2010, Esquema Nacional de Seguridad (ENS). Seguridad en administraciones públicas.

15.5. Artículos Académicos y Publicaciones

García-Gil, D., et al. (2019). «Big Data Frameworks for Healthcare: A Review.» Applied Sciences, 9(8), 1632. – Revisión de Big Data en salud.
Obermeyer, Z. & Emanuel, E. J. (2016). «Predicting the Future – Big Data, Machine Learning, and Clinical Medicine.» NEJM, 375(13), 1216-1219. – ML en medicina clínica.
Schneeweiss, S. (2014). «Learning from Big Health Care Data.» NEJM, 370(23), 2161-2163. – Uso secundario de datos sanitarios.
Kaplan, R. S. & Norton, D. P. (1996). «Using the Balanced Scorecard as a Strategic Management System.» Harvard Business Review, 74(1), 75-85. – BSC original.