OPE 2025 TFA INF. Tema 74. Gestión de los datos corporativos. Almacén de datos (Data-warehouse / Data-mart). Arquitectura OLAP. Minería de datos. Big data. Entornos Hadoop y similares. Sistemas de soporte a la decisión. Cuadros de mando y KPI. Diccionarios de recursos de información. Metadatos. Repositorios. Bancos de datos. Aplicación de estas tecnologías en el Servicio Andaluz de Salud. Base Poblacional de Salud (BPS).

OPE 2025. TFA INFORMÁTICA

La gestión de datos corporativos es un elemento clave en las organizaciones modernas, ya que permite almacenar, procesar y analizar información para la toma de decisiones estratégicas.

Este tema aborda conceptos fundamentales como el almacén de datos (Data Warehouse y Data Mart), la arquitectura OLAP, la minería de datos, Big Data, entornos Hadoop, sistemas de soporte a la decisión, cuadros de mando y KPI, diccionarios de recursos de información, metadatos, repositorios y bancos de datos.

Además, se explora la aplicación de estas tecnologías en el Servicio Andaluz de Salud (SAS), destacando la Base Poblacional de Salud (BPS) como herramienta clave en la gestión sanitaria.


1. 📊 Almacén de Datos (Data Warehouse y Data Mart)

El almacén de datos (Data Warehouse) es un sistema que integra, consolida y almacena grandes volúmenes de datos provenientes de diferentes fuentes con el objetivo de facilitar el análisis y la toma de decisiones.

1.1 Características del Data Warehouse

✅ Datos históricos y estructurados
✅ Integración de múltiples fuentes
✅ Accesibilidad y optimización para consultas analíticas
✅ No volátil: los datos no se eliminan ni modifican constantemente

1.2 Data Mart

Es una versión más pequeña y especializada del Data Warehouse, enfocada en un área concreta de la organización (ejemplo: finanzas, recursos humanos, salud).


2. 🔷 Arquitectura OLAP (Online Analytical Processing)

OLAP es una tecnología que permite analizar grandes volúmenes de datos de manera rápida y flexible.

2.1 Características de OLAP

Modelado multidimensional para facilitar el análisis de datos
Consultas interactivas con tiempos de respuesta óptimos
Operaciones OLAP:

  • Drill-down: Profundización en detalles
  • Roll-up: Resumen de datos
  • Slice and Dice: Filtrado y reorganización de información

3. 🔎 Minería de Datos (Data Mining)

Es el proceso de extracción de patrones y conocimientos ocultos en grandes volúmenes de datos mediante algoritmos y modelos matemáticos.

3.1 Aplicaciones de la Minería de Datos

📌 Detección de fraudes
📌 Análisis de comportamiento de clientes/pacientes
📌 Predicción de enfermedades y patrones de salud
📌 Optimización de procesos en organizaciones


4. 📡 Big Data y Entornos Hadoop

El Big Data se refiere a conjuntos de datos extremadamente grandes y complejos que requieren tecnologías avanzadas para su procesamiento y análisis.

4.1 Características del Big Data (Las 5 V)

1️⃣ Volumen: Grandes cantidades de datos
2️⃣ Velocidad: Procesamiento en tiempo real
3️⃣ Variedad: Datos estructurados y no estructurados
4️⃣ Veracidad: Calidad y fiabilidad de los datos
5️⃣ Valor: Utilidad de la información extraída

4.2 Entornos Hadoop y Similares

Hadoop es un marco de software de código abierto que permite el almacenamiento distribuido y procesamiento paralelo de grandes volúmenes de datos.

HDFS (Hadoop Distributed File System): Sistema de archivos distribuido
MapReduce: Modelo de procesamiento de datos en paralelo
Spark: Plataforma más rápida que MapReduce para Big Data


5. 🏥 Aplicación en el Servicio Andaluz de Salud (SAS)

El SAS utiliza tecnologías de gestión de datos para mejorar la eficiencia en la toma de decisiones y el análisis de información sanitaria.

5.1 Base Poblacional de Salud (BPS)

📌 Definición: Es una base de datos que almacena información sanitaria de los ciudadanos andaluces para mejorar la planificación y gestión del sistema de salud.

📌 Objetivos:
✅ Identificación única de los pacientes
✅ Integración de datos clínicos y administrativos
✅ Análisis epidemiológico y planificación sanitaria


 

📝 Cuestionario Tipo Test – Gestión de los Datos Corporativos


1️⃣ 📊 ¿Qué tecnología se usa para consultas analíticas sobre grandes volúmenes de datos en un Data Warehouse?

a) OLTP ⚡
b) OLAP 🔷
c) SQL Transaccional 💾
d) HDFS 📂

Respuesta correcta: b) OLAP 🔷
🔎 Explicación: OLAP (Online Analytical Processing) permite realizar consultas multidimensionales sobre grandes volúmenes de datos en Data Warehouses.


2️⃣ 🔎 ¿Qué elemento permite la organización y búsqueda eficiente de los datos en un sistema de información?

a) Metadatos 📄
b) Índices 📍
c) Transacciones ACID ⚖️
d) Big Data 📡

Respuesta correcta: a) Metadatos 📄
🔎 Explicación: Los metadatos describen, clasifican y estructuran los datos para facilitar su búsqueda y administración en un sistema.


3️⃣ ⚙️ ¿Cuál es el principal beneficio de los entornos Hadoop?

a) Procesamiento paralelo y almacenamiento distribuido 🖥️
b) Menor consumo de energía 🔋
c) Mejor compresión de datos 📦
d) Uso exclusivo en empresas privadas 🏢

Respuesta correcta: a) Procesamiento paralelo y almacenamiento distribuido 🖥️
🔎 Explicación: Hadoop es un framework diseñado para el procesamiento en paralelo y almacenamiento distribuido de grandes volúmenes de datos.


4️⃣ 📈 ¿Qué técnica permite visualizar indicadores clave de desempeño (KPI) en un formato gráfico e interactivo?

a) OLAP 🔷
b) Cuadros de mando 📊
c) Data Warehouse 🗃️
d) ETL 🔄

Respuesta correcta: b) Cuadros de mando 📊
🔎 Explicación: Los cuadros de mando permiten representar visualmente los KPI, facilitando la toma de decisiones estratégicas.


5️⃣ 🏥 ¿Cuál es la función de la Base Poblacional de Salud (BPS) en el SAS?

a) Gestionar datos de pacientes para mejorar la planificación sanitaria 📋
b) Controlar las citas médicas en hospitales ⏳
c) Almacenar exclusivamente datos financieros 💰
d) Sustituir los historiales médicos electrónicos 📂

Respuesta correcta: a) Gestionar datos de pacientes para mejorar la planificación sanitaria 📋
🔎 Explicación: La BPS almacena datos sanitarios de la población andaluza con el objetivo de optimizar la gestión y planificación en salud.


6️⃣ 🔐 ¿Qué significa el principio ACID en las bases de datos transaccionales?

a) Atomicidad, Consistencia, Aislamiento, Durabilidad ✅
b) Automatización, Codificación, Integridad, Disponibilidad 🔄
c) Almacenamiento Centralizado y Distribuido 🏢
d) Administración Completa de Información Digital 📡

Respuesta correcta: a) Atomicidad, Consistencia, Aislamiento, Durabilidad ✅
🔎 Explicación: El modelo ACID garantiza la integridad de las transacciones en bases de datos relacionales, asegurando fiabilidad y consistencia.


7️⃣ 📂 ¿Cuál de los siguientes no es un componente de un sistema de almacenamiento de datos?

a) Data Warehouse 🗃️
b) Data Mart 📁
c) Base de Datos Relacional 🔍
d) Router de Red 🌍

Respuesta correcta: d) Router de Red 🌍
🔎 Explicación: Un router de red gestiona conexiones entre dispositivos, pero no forma parte de los sistemas de almacenamiento de datos.


8️⃣ 🛢️ ¿Qué tipo de bases de datos permite el almacenamiento de datos estructurados y no estructurados en Big Data?

a) Bases de datos NoSQL 📡
b) Bases de datos relacionales SQL 🗃️
c) Bases de datos centralizadas 🏢
d) Bases de datos jerárquicas 🌳

Respuesta correcta: a) Bases de datos NoSQL 📡
🔎 Explicación: Las bases de datos NoSQL están diseñadas para manejar grandes volúmenes de datos estructurados y no estructurados, clave en Big Data.


9️⃣ 🔄 ¿Qué proceso transforma datos de diferentes fuentes en información útil para un Data Warehouse?

a) ETL (Extract, Transform, Load) 🔄
b) OLAP 🔷
c) Indexación 📍
d) Machine Learning 🤖

Respuesta correcta: a) ETL (Extract, Transform, Load) 🔄
🔎 Explicación: El proceso ETL extrae datos de múltiples fuentes, los transforma según necesidades y los carga en un Data Warehouse.


🔟 🛠️ ¿Cuál de las siguientes opciones es una herramienta de procesamiento en el ecosistema Big Data?

a) Apache Spark ⚡
b) Microsoft Excel 📊
c) PostgreSQL 🐘
d) Windows Server 🖥️

Respuesta correcta: a) Apache Spark ⚡
🔎 Explicación: Apache Spark es una plataforma optimizada para el procesamiento en tiempo real de grandes volúmenes de datos dentro del ecosistema Big Data.


1️⃣1️⃣ 📊 ¿Cuál es la diferencia clave entre un Data Warehouse y un Data Mart?

a) Un Data Warehouse almacena datos operacionales, mientras que un Data Mart almacena datos históricos 📅
b) Un Data Mart es una versión más pequeña y especializada de un Data Warehouse 🎯
c) Un Data Warehouse solo es utilizado en entornos financieros 💰
d) Un Data Mart solo puede almacenar datos estructurados 🏗️

Respuesta correcta: b) Un Data Mart es una versión más pequeña y especializada de un Data Warehouse 🎯
🔎 Explicación: Un Data Mart es un subconjunto de un Data Warehouse, diseñado para cubrir necesidades específicas de un área de negocio, como ventas, marketing o salud.


1️⃣2️⃣ 🔄 ¿Qué significa el proceso ELT (Extract, Load, Transform)?

a) Es una variante del proceso ETL, donde la transformación se realiza después de la carga de datos 🛠️
b) Es un nuevo sistema de almacenamiento de bases de datos NoSQL 📦
c) Se utiliza exclusivamente en bases de datos relacionales 🔍
d) Es una técnica para eliminar datos duplicados en Big Data ❌

Respuesta correcta: a) Es una variante del proceso ETL, donde la transformación se realiza después de la carga de datos 🛠️
🔎 Explicación: En ELT, los datos se extraen y cargan primero en bruto en el sistema de destino, y la transformación ocurre posteriormente, permitiendo mayor escalabilidad en entornos de Big Data.


1️⃣3️⃣ 📡 ¿Cuál es una de las tecnologías más utilizadas para procesar Big Data en tiempo real?

a) Apache Spark ⚡
b) MySQL 🐬
c) PostgreSQL 🐘
d) Excel 📊

Respuesta correcta: a) Apache Spark ⚡
🔎 Explicación: Apache Spark es una tecnología de procesamiento distribuido que permite analizar grandes volúmenes de datos en tiempo real, mucho más rápido que Hadoop MapReduce.


1️⃣4️⃣ 📊 ¿Qué herramienta permite visualizar métricas clave en tiempo real para la toma de decisiones?

a) Cuadros de mando 📊
b) HDFS 📂
c) Data Warehouse 🗃️
d) OLTP ⚡

Respuesta correcta: a) Cuadros de mando 📊
🔎 Explicación: Los cuadros de mando permiten a las organizaciones visualizar indicadores clave (KPI) mediante gráficos interactivos para la toma de decisiones estratégicas.


1️⃣5️⃣ 🔐 ¿Cuál de los siguientes aspectos es clave en la seguridad de los datos corporativos?

a) Integridad, disponibilidad y confidencialidad 🔒
b) Solo asegurar el acceso restringido a los empleados 👨‍💼
c) Eliminar datos después de 30 días para evitar filtraciones ❌
d) No almacenar copias de seguridad para evitar duplicación 🚫

Respuesta correcta: a) Integridad, disponibilidad y confidencialidad 🔒
🔎 Explicación: La seguridad de los datos se basa en el principio CIA (Confidencialidad, Integridad y Disponibilidad), asegurando que los datos sean seguros, accesibles y no alterados indebidamente.


1️⃣6️⃣ 🏥 ¿Cómo ayuda la Base Poblacional de Salud (BPS) en la sanidad andaluza?

a) Permite la planificación de recursos sanitarios y el análisis de datos poblacionales 🏥
b) Es un repositorio exclusivo para farmacias 💊
c) Solo almacena datos clínicos de pacientes hospitalizados 🏨
d) Se utiliza solo para estudios epidemiológicos 📑

Respuesta correcta: a) Permite la planificación de recursos sanitarios y el análisis de datos poblacionales 🏥
🔎 Explicación: La BPS permite integrar y analizar datos de salud de la población andaluza, mejorando la planificación y gestión de los recursos sanitarios en el Servicio Andaluz de Salud (SAS).


1️⃣7️⃣ 📂 ¿Qué función cumplen los repositorios de datos en una organización?

a) Almacenar y organizar información estructurada y no estructurada 📂
b) Bloquear accesos a los datos sensibles 🔐
c) Sustituir los sistemas transaccionales OLTP 🔄
d) Transformar datos automáticamente en informes PDF 📑

Respuesta correcta: a) Almacenar y organizar información estructurada y no estructurada 📂
🔎 Explicación: Los repositorios de datos permiten almacenar, gestionar y organizar información clave para la empresa, asegurando su disponibilidad para análisis y toma de decisiones.


1️⃣8️⃣ 🔗 ¿Cuál es el propósito de los diccionarios de datos en una organización?

a) Documentar la estructura, significado y relaciones de los datos 📖
b) Almacenar datos históricos de clientes 🏷️
c) Convertir datos no estructurados en tablas SQL 🗃️
d) Agilizar las transacciones en bases de datos operacionales 💾

Respuesta correcta: a) Documentar la estructura, significado y relaciones de los datos 📖
🔎 Explicación: Un diccionario de datos es un recurso esencial para documentar la información sobre la estructura, atributos y relaciones de los datos dentro de un sistema de información.


1️⃣9️⃣ 📡 ¿Qué ventaja aporta el análisis de datos en la gestión sanitaria?

a) Permite mejorar la planificación y optimización de recursos en hospitales 🏥
b) Evita la necesidad de registrar historiales médicos ❌
c) Sustituye las decisiones médicas por algoritmos de inteligencia artificial 🤖
d) Reduce los costos eliminando bases de datos antiguas 💰

Respuesta correcta: a) Permite mejorar la planificación y optimización de recursos en hospitales 🏥
🔎 Explicación: El análisis de datos en el sector sanitario permite optimizar recursos, prever necesidades y mejorar la gestión de hospitales y centros de salud.


2️⃣0️⃣ 🛢️ ¿Cuál de las siguientes bases de datos está diseñada específicamente para el análisis de datos en Big Data?

a) Apache Cassandra 🚀
b) Microsoft Access 📑
c) MySQL 🐬
d) MariaDB 🌊

Respuesta correcta: a) Apache Cassandra 🚀
🔎 Explicación: Apache Cassandra es una base de datos NoSQL altamente escalable, diseñada para manejar grandes volúmenes de datos en entornos distribuidos.


2️⃣1️⃣ 🏢 ¿Qué tipo de análisis permite OLAP en los datos corporativos?

a) Análisis multidimensional con operaciones como Drill-Down y Slice and Dice 📊
b) Solo permite consultas simples de datos en tiempo real ⏳
c) Se enfoca únicamente en el almacenamiento de datos estructurados 📂
d) Solo se usa en entornos de bases de datos NoSQL 🚀

Respuesta correcta: a) Análisis multidimensional con operaciones como Drill-Down y Slice and Dice 📊
🔎 Explicación: OLAP permite realizar análisis de datos en múltiples dimensiones, con operaciones como Drill-Down (desglosar en detalle) y Slice and Dice (filtrar y reorganizar información).


2️⃣2️⃣ 🔄 ¿Qué tecnología facilita la integración de datos de diferentes fuentes en un Data Warehouse?

a) ETL (Extract, Transform, Load) 🔄
b) OLTP ⚡
c) MapReduce 🗃️
d) Blockchain 🔗

Respuesta correcta: a) ETL (Extract, Transform, Load) 🔄
🔎 Explicación: ETL permite extraer datos de diferentes fuentes, transformarlos para asegurar su calidad y cargarlos en un Data Warehouse para su análisis.


2️⃣3️⃣ 📡 ¿Cuál de los siguientes componentes no forma parte de un sistema Hadoop?

a) HDFS 📂
b) MapReduce 🔄
c) Apache Spark ⚡
d) OLTP ⚡

Respuesta correcta: d) OLTP ⚡
🔎 Explicación: Hadoop está compuesto por HDFS (sistema de archivos distribuido), MapReduce (procesamiento paralelo) y herramientas como Spark, pero no incluye OLTP, que es un sistema transaccional.


2️⃣4️⃣ 📊 ¿Cuál es la función principal de un KPI en un cuadro de mando?

a) Medir el desempeño de una actividad o proceso clave 📈
b) Almacenar datos históricos en una base de datos 📜
c) Optimizar el almacenamiento de información en servidores 🖥️
d) Reemplazar la toma de decisiones humanas por algoritmos 🤖

Respuesta correcta: a) Medir el desempeño de una actividad o proceso clave 📈
🔎 Explicación: Un KPI (Key Performance Indicator) es una métrica clave utilizada en cuadros de mando para evaluar el desempeño de un proceso o estrategia.


2️⃣5️⃣ 🔍 ¿Qué tecnología permite analizar datos en tiempo real dentro de Big Data?

a) Apache Kafka 📡
b) MySQL 🐬
c) PostgreSQL 🐘
d) Microsoft Access 📑

Respuesta correcta: a) Apache Kafka 📡
🔎 Explicación: Apache Kafka es una plataforma de transmisión de datos en tiempo real, utilizada en entornos Big Data para el procesamiento en streaming.


2️⃣6️⃣ 🏥 ¿Qué beneficio aporta la Base Poblacional de Salud (BPS) en la gestión sanitaria?

a) Mejora la planificación y asignación de recursos sanitarios 📊
b) Solo permite almacenar información de pacientes hospitalizados 🏨
c) Almacena datos financieros de hospitales 💰
d) Sustituye completamente los registros médicos electrónicos 📂

Respuesta correcta: a) Mejora la planificación y asignación de recursos sanitarios 📊
🔎 Explicación: La BPS permite analizar datos sanitarios para optimizar la asignación de recursos y mejorar la eficiencia en la gestión hospitalaria.


2️⃣7️⃣ 🔐 ¿Qué mecanismo de seguridad ayuda a controlar el acceso a los datos en una base de datos corporativa?

a) Roles y permisos de usuario 🔑
b) Solo permitir conexiones desde un único dispositivo 💻
c) Bloquear el acceso a todos los datos por seguridad ❌
d) Usar contraseñas débiles para agilizar la autenticación 🔓

Respuesta correcta: a) Roles y permisos de usuario 🔑
🔎 Explicación: En las bases de datos corporativas se utilizan roles y permisos de usuario para controlar quién puede acceder, modificar o eliminar información.


2️⃣8️⃣ 📂 ¿Qué tipo de datos se pueden almacenar en un Data Warehouse?

a) Datos históricos estructurados y semiestructurados 📊
b) Solo datos en tiempo real ⏳
c) Información sin procesar en formato bruto ❌
d) Solo datos financieros 💰

Respuesta correcta: a) Datos históricos estructurados y semiestructurados 📊
🔎 Explicación: Un Data Warehouse almacena datos estructurados y semiestructurados provenientes de múltiples fuentes para análisis a largo plazo.


2️⃣9️⃣ 🔎 ¿Cuál de las siguientes tecnologías se utiliza para la automatización del análisis de datos mediante algoritmos inteligentes?

a) Machine Learning 🤖
b) OLTP ⚡
c) Bases de datos relacionales SQL 🗃️
d) Compresión de datos ZIP 📂

Respuesta correcta: a) Machine Learning 🤖
🔎 Explicación: Machine Learning es una rama de la inteligencia artificial que permite automatizar el análisis de datos y generar predicciones basadas en patrones detectados.


3️⃣0️⃣ 🛢️ ¿Cuál es una de las ventajas de las bases de datos NoSQL en entornos Big Data?

a) Escalabilidad horizontal y manejo eficiente de grandes volúmenes de datos 📡
b) Solo permiten almacenar datos financieros 💰
c) Requieren menor capacidad de almacenamiento que las bases SQL 📂
d) No permiten consultas en tiempo real ⏳

Respuesta correcta: a) Escalabilidad horizontal y manejo eficiente de grandes volúmenes de datos 📡
🔎 Explicación: Las bases de datos NoSQL permiten almacenar y gestionar grandes volúmenes de datos de manera flexible, con escalabilidad horizontal para mejorar el rendimiento.


🎯 Conclusión

📌 Este cuestionario  cuenta con 30 preguntas
📌 Se han incluido preguntas adicionales sobre OLAP, Big Data, KPIs, Apache Kafka, Machine Learning y Seguridad en Bases de Datos.


📌 Mapa Conceptual

📌 Gestión de Datos Corporativos
├── 📊 Data Warehouse & Data Mart
│ ├── Datos históricos 📅
│ ├── Integración de fuentes 🔄
│ └── Consultas optimizadas 🚀
├── 🔷 OLAP
│ ├── Modelado multidimensional 📈
│ ├── Drill-down & Roll-up 🔎
│ └── Slice and Dice 🔄
├── 🔎 Minería de Datos
│ ├── Análisis de patrones 📊
│ ├── Predicción de tendencias 📡
│ └── Aplicación en salud 🏥
├── 📡 Big Data & Hadoop
│ ├── Volumen, Velocidad, Variedad, Veracidad, Valor ⚙️
│ ├── Procesamiento paralelo 💻
│ └── Frameworks como Spark ⚡
├── 🏥 Aplicaciones en el SAS
│ ├── Base Poblacional de Salud (BPS) 🏥
│ ├── Análisis epidemiológico 🏨
│ └── Integración de datos clínicos 🧑‍⚕️


 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *