Tema 74. Gestión de los datos corporativos. Almacén de datos (Data-warehouse / Data-mart). Arquitectura OLAP. Minería de datos. Big data. Entornos Hadoop y similares. Sistemas de soporte a la decisión. Cuadros de mando y KPI. Diccionarios de recursos de información. Metadatos. Repositorios. Bancos de datos. Aplicación de estas tecnologías en el Servicio Andaluz de Salud. Base Poblacional de Salud (BPS).

OPE 2025. TFA INFORMÁTICA

Tema 74: Gestión de los datos corporativos

1. Almacén de datos (Data-warehouse / Data-mart)

  • Data-warehouse: Sistema centralizado diseñado para almacenar grandes volúmenes de datos provenientes de diferentes fuentes. Permite la integración, organización y análisis histórico de los datos. Es esencial para la toma de decisiones estratégicas.
  • Data-mart: Subconjunto especializado del data-warehouse, enfocado en áreas específicas de la organización. Se utiliza para consultas y análisis más concretos y rápidos.

2. Arquitectura OLAP

  • OLAP (Online Analytical Processing): Tecnología que facilita el análisis multidimensional de grandes volúmenes de datos, permitiendo explorar información desde diferentes perspectivas (dimensiones).
  • Componentes clave:
    • Cubos OLAP: Representación multidimensional de los datos.
    • Operaciones OLAP: Drill-down, roll-up, slice, dice y pivot.

3. Minería de datos

  • Proceso de extracción de patrones significativos y conocimiento útil a partir de grandes conjuntos de datos.
  • Técnicas principales:
    • Clasificación.
    • Agrupamiento.
    • Asociación.
    • Predicción.
  • Se utiliza en áreas como el marketing, salud, finanzas y detección de fraudes.

4. Big data

  • Se refiere al manejo y análisis de grandes volúmenes de datos, con alta velocidad, variedad y veracidad (las 4 Vs del big data: volumen, velocidad, variedad, veracidad).
  • Permite descubrir patrones, tendencias y tomar decisiones basadas en datos.
  • Ejemplos de aplicaciones: análisis predictivo, personalización de servicios, IoT (Internet de las cosas).

5. Entornos Hadoop y similares

  • Hadoop: Marco de trabajo de código abierto para el almacenamiento distribuido y procesamiento de grandes volúmenes de datos.
    • HDFS (Hadoop Distributed File System): Sistema de almacenamiento distribuido.
    • MapReduce: Modelo de procesamiento paralelo para el análisis de datos.
  • Otros entornos similares:
    • Apache Spark: Plataforma de procesamiento de datos más rápida que Hadoop.
    • Flink: Diseñado para procesamiento de flujos de datos.

6. Sistemas de soporte a la decisión

  • Herramientas y sistemas que ayudan a la toma de decisiones mediante el análisis de datos.
  • Componentes principales:
    • Bases de datos.
    • Modelos de análisis.
    • Interfaces de usuario.

7. Cuadros de mando y KPI

  • Cuadros de mando: Herramientas visuales que permiten monitorear indicadores clave de rendimiento (KPI) en tiempo real.
  • KPI (Key Performance Indicators): Métricas utilizadas para evaluar el rendimiento de un proceso o actividad.

8. Diccionarios de recursos de información, metadatos y repositorios

  • Diccionarios de recursos de información: Catálogos que describen los datos disponibles en una organización, sus estructuras y significados.
  • Metadatos: Datos que describen otros datos (origen, estructura, formato, etc.).
  • Repositorios: Almacenes centralizados de datos, códigos o documentos para facilitar el acceso y la colaboración.

9. Bancos de datos

  • Colecciones organizadas de datos para su almacenamiento, consulta y análisis.
  • Se utilizan en diversos sectores, como investigación, administración pública y salud.

10. Aplicación de estas tecnologías en el Servicio Andaluz de Salud (SAS)

El Servicio Andaluz de Salud ha implementado diversas tecnologías de gestión de datos corporativos para optimizar sus servicios y mejorar la atención sanitaria. Entre las aplicaciones más destacadas se encuentra la Base Poblacional de Salud (BPS):

Base Poblacional de Salud (BPS)

La BPS es un sistema centralizado que integra datos clínicos, demográficos y administrativos de la población atendida por el SAS. Su objetivo principal es mejorar la gestión sanitaria mediante el uso eficiente de la información.

  • Características principales:
    • Integración de datos: Combina información de múltiples fuentes, como historiales clínicos electrónicos, registros administrativos y bases de datos públicas.
    • Analítica avanzada: Utiliza herramientas de minería de datos y big data para identificar patrones y predecir necesidades sanitarias.
    • Soporte a la toma de decisiones: Proporciona información precisa para planificar recursos, diseñar estrategias de prevención y mejorar la eficiencia operativa.
  • Aplicaciones destacadas:
    • Gestor de Salud Poblacional: Herramienta que permite segmentar a la población según criterios clínicos o demográficos, facilitando programas de atención personalizada.
    • Predicción de riesgos: Modelos predictivos que identifican pacientes con mayor probabilidad de desarrollar enfermedades crónicas o complicaciones.
    • Monitoreo de KPI sanitarios: Seguimiento en tiempo real de indicadores clave como tasas de hospitalización, reingresos y cumplimiento de tratamientos.
  • Beneficios para el SAS:
    • Mejora en la planificación de recursos sanitarios.
    • Reducción de costos mediante la prevención de enfermedades y optimización de procesos.
    • Incremento en la calidad de la atención al paciente gracias a un enfoque basado en datos.
  • Ejemplos de tecnologías utilizadas:
    • Sistemas OLAP para análisis multidimensional.
    • Entornos Hadoop y Spark para el procesamiento masivo de datos.
    • Cuadros de mando interactivos para la visualización de información.

En resumen, la implementación de estas tecnologías en el SAS, y en particular la BPS, representa un ejemplo exitoso de cómo los sistemas de información pueden transformar la gestión sanitaria, optimizar recursos y mejorar la salud de la población.

¡Claro! Siguiendo el formato establecido en los temas anteriores, aquí tienes el cuestionario con 4 preguntas de opción múltiple, con una sola respuesta correcta y una explicación para cada una de ellas:


Cuestionario – Tema 74: Gestión de los datos corporativos

1. ¿Cuál es la principal diferencia entre un Data-Warehouse y un Data-Mart?

a) El Data-Warehouse tiene un enfoque específico para áreas concretas de la empresa.
b) El Data-Mart es más grande y abarca toda la información corporativa.
c) El Data-Warehouse almacena datos a nivel global, mientras que el Data-Mart está especializado en áreas concretas.
d) No existe diferencia, son términos sinónimos.

Respuesta correcta: c) El Data-Warehouse almacena datos a nivel global, mientras que el Data-Mart está especializado en áreas concretas.
Explicación: El Data-Warehouse es un repositorio de datos integrados de toda la organización, utilizado para análisis globales. El Data-Mart, por su parte, es un subconjunto más pequeño y especializado de datos, que se centra en áreas específicas como ventas o marketing.

2. ¿Qué significa la «V» de «Volumen» en Big Data?

a) Se refiere a la velocidad con la que los datos se generan.
b) Hace referencia a la variedad de tipos de datos procesados.
c) Hace referencia a la cantidad masiva de datos generados y almacenados.
d) Se refiere a la visualización de los datos en tiempo real.

Respuesta correcta: c) Hace referencia a la cantidad masiva de datos generados y almacenados.
Explicación: En el contexto de Big Data, «Volumen» se refiere a la gran cantidad de datos que se generan a diario, que superan la capacidad de almacenamiento y procesamiento de los sistemas tradicionales.

3. ¿Qué caracteriza a la arquitectura OLAP (Online Analytical Processing)?

a) Utiliza una estructura de datos relacional para consultas simples.
b) Permite realizar consultas multidimensionales y análisis complejos de grandes volúmenes de datos.
c) Es utilizada únicamente para análisis de datos en tiempo real.
d) Se basa en el procesamiento secuencial de grandes bases de datos.

Respuesta correcta: b) Permite realizar consultas multidimensionales y análisis complejos de grandes volúmenes de datos.
Explicación: OLAP está diseñado para facilitar el análisis de datos en múltiples dimensiones, lo que permite explorar los datos desde diferentes perspectivas, como tiempo, ubicación o producto. No se limita a análisis simples ni secuenciales.

4. ¿Qué herramienta es considerada una alternativa a Hadoop para el procesamiento de grandes volúmenes de datos?

a) SQL Server
b) Oracle Database
c) Apache Spark
d) MySQL

Respuesta correcta: c) Apache Spark
Explicación: Apache Spark es una plataforma de procesamiento de datos de código abierto que se considera una alternativa a Hadoop debido a su mayor velocidad de procesamiento y su capacidad para manejar tanto procesamiento en tiempo real como procesamiento por lotes.


Por supuesto, aquí tienes más preguntas adicionales siguiendo el mismo formato. Estas preguntas cubren distintos aspectos del tema, asegurando que los opositores repasen bien los conceptos clave.


Cuestionario – Tema 74: Gestión de los datos corporativos (Continuación)

5. ¿Cuál de las siguientes afirmaciones es correcta sobre la minería de datos?

a) La minería de datos solo se utiliza para predecir comportamientos financieros.
b) La minería de datos utiliza algoritmos estadísticos y de aprendizaje automático para identificar patrones ocultos en grandes volúmenes de datos.
c) La minería de datos se basa únicamente en el análisis de datos estructurados.
d) La minería de datos no se puede aplicar en el ámbito sanitario.

Respuesta correcta: b) La minería de datos utiliza algoritmos estadísticos y de aprendizaje automático para identificar patrones ocultos en grandes volúmenes de datos.
Explicación: La minería de datos emplea técnicas de análisis avanzadas, como algoritmos estadísticos y de aprendizaje automático, para encontrar patrones y relaciones en grandes conjuntos de datos. Esto incluye tanto datos estructurados como no estructurados.

6. ¿Qué característica define mejor a Big Data en términos de «Variedad»?

a) El procesamiento de grandes cantidades de datos en tiempo real.
b) La diversidad de tipos de datos, como textos, imágenes, vídeos, etc.
c) La velocidad a la que se generan los datos.
d) El volumen masivo de los datos generados.

Respuesta correcta: b) La diversidad de tipos de datos, como textos, imágenes, vídeos, etc.
Explicación: «Variedad» se refiere a la diversidad de los tipos de datos que se manejan en Big Data, que incluyen datos estructurados, semi-estructurados y no estructurados (como imágenes, vídeos, texto, etc.).

7. ¿En qué contexto se utiliza más la arquitectura OLAP?

a) Para la gestión de bases de datos transaccionales en tiempo real.
b) Para realizar análisis complejos y consultas multidimensionales sobre grandes volúmenes de datos.
c) Para crear bases de datos distribuidas en la nube.
d) Para realizar consultas SQL sencillas en bases de datos relacionales.

Respuesta correcta: b) Para realizar análisis complejos y consultas multidimensionales sobre grandes volúmenes de datos.
Explicación: OLAP está diseñado para permitir a los usuarios realizar consultas y análisis complejos de datos en múltiples dimensiones (por ejemplo, tiempo, ubicación, etc.), lo que es útil para tareas de inteligencia empresarial.

8. ¿Cuál es la función principal de un Data-Mart?

a) Almacenar datos estructurados que solo pueden ser utilizados por analistas de datos.
b) Servir como un almacén centralizado de datos para toda la organización.
c) Almacenar y organizar datos específicos para áreas o departamentos concretos de la empresa.
d) Procesar datos en tiempo real para generar informes instantáneos.

Respuesta correcta: c) Almacenar y organizar datos específicos para áreas o departamentos concretos de la empresa.
Explicación: Un Data-Mart es un subconjunto especializado de un Data-Warehouse, diseñado para satisfacer las necesidades específicas de un departamento o área funcional, como ventas, marketing o finanzas.

9. ¿Qué tipo de datos pueden ser procesados por un sistema Big Data?

a) Solo datos estructurados.
b) Solo datos no estructurados.
c) Solo datos de texto.
d) Datos estructurados, semi-estructurados y no estructurados.

Respuesta correcta: d) Datos estructurados, semi-estructurados y no estructurados.
Explicación: Big Data es capaz de manejar diversos tipos de datos: estructurados (como bases de datos), semi-estructurados (como XML o JSON) y no estructurados (como imágenes, vídeos, o redes sociales).

10. ¿Cuál es el propósito principal de los cuadros de mando (Dashboards)?

a) Almacenar grandes volúmenes de datos de forma segura.
b) Proporcionar a los usuarios una interfaz gráfica para la visualización de indicadores clave de rendimiento (KPIs).
c) Realizar consultas SQL sobre bases de datos.
d) Gestionar los permisos de acceso a los datos.

Respuesta correcta: b) Proporcionar a los usuarios una interfaz gráfica para la visualización de indicadores clave de rendimiento (KPIs).
Explicación: Los cuadros de mando permiten visualizar de manera gráfica y comprensible los KPIs y métricas clave de rendimiento para facilitar la toma de decisiones estratégicas.

11. ¿Qué son los metadatos?

a) Datos sobre otros datos, que proporcionan contexto adicional para facilitar su comprensión.
b) Información almacenada en formatos no estructurados.
c) Bases de datos que contienen solo información textual.
d) Datos almacenados de manera temporal para su procesamiento.

Respuesta correcta: a) Datos sobre otros datos, que proporcionan contexto adicional para facilitar su comprensión.
Explicación: Los metadatos son información que describe otros datos, como el tipo de dato, su formato, la fecha de creación, el propietario, etc. Ayudan a los usuarios y sistemas a entender y utilizar los datos correctamente.

12. ¿Cuál es una de las aplicaciones más importantes de Big Data en el ámbito sanitario?

a) Aumentar la velocidad de las consultas SQL.
b) Mejorar la eficiencia de los sistemas de administración de pacientes.
c) Realizar análisis de datos no relacionados con la salud.
d) Reducir la cantidad de datos almacenados.

Respuesta correcta: b) Mejorar la eficiencia de los sistemas de administración de pacientes.
Explicación: Big Data puede ayudar a analizar grandes volúmenes de datos médicos, mejorar la gestión de pacientes, predecir epidemias y optimizar la asignación de recursos en el ámbito sanitario.

13. ¿Cuál de las siguientes opciones describe mejor los beneficios de utilizar un Data-Warehouse en una organización?

a) Facilita el análisis de datos en tiempo real y mejora la toma de decisiones a nivel operativo.
b) Permite almacenar grandes volúmenes de datos sin realizar análisis sobre ellos.
c) Permite integrar datos provenientes de diferentes fuentes y facilita el análisis para la toma de decisiones estratégicas.
d) Restringe el acceso a los datos para evitar su manipulación.

Respuesta correcta: c) Permite integrar datos provenientes de diferentes fuentes y facilita el análisis para la toma de decisiones estratégicas.
Explicación: Un Data-Warehouse reúne datos de diversas fuentes dentro de la organización, permitiendo su análisis para apoyar la toma de decisiones a nivel estratégico y de gestión, mejorando la planificación y la visión global de la empresa.

14. ¿Qué característica hace que Hadoop sea adecuado para el procesamiento de Big Data?

a) Hadoop se basa en el procesamiento secuencial de datos en bases de datos relacionales.
b) Hadoop utiliza un sistema distribuido que permite almacenar y procesar grandes volúmenes de datos de forma eficiente y a bajo coste.
c) Hadoop es exclusivo para el procesamiento de datos en tiempo real.
d) Hadoop está diseñado exclusivamente para datos estructurados.

Respuesta correcta: b) Hadoop utiliza un sistema distribuido que permite almacenar y procesar grandes volúmenes de datos de forma eficiente y a bajo coste.
Explicación: Hadoop se basa en una arquitectura distribuida que permite almacenar y procesar grandes volúmenes de datos en múltiples servidores, lo que lo hace adecuado para Big Data. Su capacidad de procesamiento paralelo lo hace muy eficiente y económico.

15. ¿Qué es un «cubo OLAP» y cómo se utiliza en el análisis de datos?

a) Es un tipo de base de datos relacional que almacena datos en formato tabular.
b) Es una herramienta visual que permite realizar análisis estadísticos sobre datos no estructurados.
c) Es una estructura multidimensional que organiza datos en dimensiones, permitiendo un análisis complejo de los mismos.
d) Es un sistema de almacenamiento que solo puede usarse para realizar consultas simples.

Respuesta correcta: c) Es una estructura multidimensional que organiza datos en dimensiones, permitiendo un análisis complejo de los mismos.
Explicación: Los cubos OLAP permiten almacenar datos en varias dimensiones, lo que facilita realizar consultas multidimensionales y análisis complejos. Los cubos son fundamentales para el análisis de datos en aplicaciones de inteligencia empresarial.

16. ¿Cuál de las siguientes afirmaciones es correcta sobre la minería de datos en el ámbito sanitario?

a) La minería de datos solo puede predecir el comportamiento de los pacientes en relación con el uso de medicamentos.
b) La minería de datos permite descubrir patrones en los historiales médicos y en el comportamiento de los pacientes, ayudando a predecir y mejorar el tratamiento.
c) La minería de datos solo se utiliza para realizar análisis descriptivos de las enfermedades prevalentes.
d) La minería de datos no es útil para el análisis de grandes volúmenes de datos en el ámbito sanitario.

Respuesta correcta: b) La minería de datos permite descubrir patrones en los historiales médicos y en el comportamiento de los pacientes, ayudando a predecir y mejorar el tratamiento.
Explicación: En el ámbito sanitario, la minería de datos se utiliza para analizar historiales médicos y comportamientos de los pacientes, ayudando a identificar patrones que pueden predecir enfermedades, optimizar tratamientos y mejorar la calidad de la atención sanitaria.

17. ¿Cuál es la diferencia entre un Data-Warehouse y un sistema de soporte a la decisión (DSS)?

a) El Data-Warehouse almacena los datos de manera que solo pueden ser utilizados por los directivos de la empresa.
b) El DSS es un sistema de análisis en tiempo real, mientras que el Data-Warehouse se enfoca en el almacenamiento de datos históricos.
c) El Data-Warehouse gestiona los datos en tiempo real, mientras que el DSS solo realiza análisis de datos históricos.
d) No existe diferencia, ambos son términos sinónimos.

Respuesta correcta: b) El DSS es un sistema de análisis en tiempo real, mientras que el Data-Warehouse se enfoca en el almacenamiento de datos históricos.
Explicación: Un Data-Warehouse se centra en la recopilación y almacenamiento de grandes volúmenes de datos históricos, mientras que un Sistema de Soporte a la Decisión (DSS) se utiliza para realizar análisis interactivos en tiempo real, apoyando la toma de decisiones operativas y estratégicas.

18. ¿Qué es un KPI (Indicador Clave de Desempeño) y cuál es su propósito?

a) Un KPI es una herramienta para almacenar datos no estructurados.
b) Un KPI es un indicador que mide el desempeño de una organización respecto a sus objetivos estratégicos, operativos o financieros.
c) Un KPI es un tipo de base de datos que agrupa información relacionada con los empleados.
d) Un KPI es un software que permite realizar análisis de datos sin necesidad de tener conocimientos previos.

Respuesta correcta: b) Un KPI es un indicador que mide el desempeño de una organización respecto a sus objetivos estratégicos, operativos o financieros.
Explicación: Los KPIs son métricas clave que permiten medir el rendimiento de la organización en áreas específicas. Se utilizan para evaluar si se están alcanzando los objetivos establecidos, tanto a nivel estratégico como operativo.

19. ¿Qué es un «repositorio de datos» y cómo se utiliza en una organización?

a) Un repositorio de datos es un sistema temporal que solo se utiliza para procesar datos a gran escala.
b) Un repositorio de datos es un sistema centralizado que almacena y organiza todos los datos de la organización para su consulta y análisis posterior.
c) Un repositorio de datos solo se utiliza para almacenar datos no estructurados.
d) Un repositorio de datos se refiere únicamente a sistemas de almacenamiento físico como discos duros o servidores.

Respuesta correcta: b) Un repositorio de datos es un sistema centralizado que almacena y organiza todos los datos de la organización para su consulta y análisis posterior.
Explicación: Un repositorio de datos centraliza y organiza toda la información relevante de la organización, ya sea estructurada o no estructurada, permitiendo su análisis y consulta posterior para mejorar la toma de decisiones.

20. ¿Qué implica la «Velocidad» en el contexto de Big Data?

a) La rapidez con que los datos son procesados para extraer valor y generar informes.
b) La rapidez con la que los usuarios pueden acceder a los datos almacenados.
c) La velocidad con la que se almacenan los datos en el sistema.
d) La rapidez con la que los datos son generados o producidos, es decir, la frecuencia con que se generan los nuevos datos.

Respuesta correcta: d) La rapidez con la que los datos son generados o producidos, es decir, la frecuencia con que se generan los nuevos datos.
Explicación: En Big Data, la «Velocidad» se refiere a la rapidez con la que los datos son generados, procesados y analizados, lo que es esencial en áreas como la monitorización en tiempo real y el análisis de datos dinámicos.

 

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *