Contribución a las tecnologías de representación de datos para sistemas eficientes de inteligencia de negocio
DATE:
2016-01-29
UNIVERSAL IDENTIFIER: http://hdl.handle.net/11093/502
SUPERVISED BY: Gonzalez Castaño, Francisco Javier
UNESCO SUBJECT: 1203.18 Sistemas de Información, Diseño Componentes ; 1203.12 Bancos de Datos ; 1209.03 Análisis de Datos
DOCUMENT TYPE: doctoralThesis
ABSTRACT
Tradicionalmente, las bases de datos relacionales se han utilizado para obtener
información en los sistemas de Inteligencia de Negocio (Business Intelligence). A
medida que dichos sistemas utilizaban mayor volumen de datos, han sido necesarios
nuevos paradigmas y herramientas de análisis. Hoy en día, los sistemas OLAP
(On-Line Analytical Processing) se encargan de gestionar información estratégica y
de proporcionar un análisis rápido, multidimensional, interactivo y consistente de
la información contenida en los almacenes de datos. Además, el paradigma AQL
(Associative Query Logic) aplicado a Inteligencia de Negocio permite definir herramientas
que gestionan todos los datos en memoria, lo que permite un análisis
extremadamente rápido de grandes cantidades de datos.
En esta tesis se presentan contribuciones en dos áreas de los sistemas de Inteligencia
de Negocio. Primero, describimos nuestra experiencia en la migración de un
sistema de gestión de base de datos relacional real y de gran tamaño, a un sistema
OLAP que se apoya en una capa relacional subyacente que conforma un almacén
de datos. Como resultado, se han generado contribuciones en la optimización del
sistema ROLAP de código abierto. Hemos desarrollado una memoria cache que evita
los problemas de diseño y mantenimiento de soluciones tradicionales que utilizan
tablas agregadas para mejorar el rendimiento del sistema (en términos de tiempo de
respuesta). En nuestra solución, el proceso cold start genera datos agregados para
alimentar la memoria cache, obtenidos a partir del almacén de datos relacional, con
lo que se reducen los tiempos de respuesta. Con este procedimiento se asegura el
acceso concurrente a los datos y la consistencia de los mismos, cuando se efectúan
modificaciones en el almacén de datos. Además, se mejora la funcionalidad del sistema
OLAP con la definición de dimensiones calculadas, que permiten definir nuevas
medidas en tiempo real, sin la necesidad de rediseñar el cubo multidimensional.
En segundo lugar, presentamos nuestra experiencia en el desarrollo de una herramienta
de Inteligencia de Negocio para entorno web, según el paradigma AQL. La
hemos desarrollado como herramienta de código abierto multiplataforma. Se utilizan
técnicas de compresión de datos para el almacenamiento de grandes cantidades de
datos en memoria principal. El rendimiento de nuestra solución es comparable al
de herramientas comerciales (tomando a QlikView como referencia) en términos de
compresión, tiempo de carga y tiempo de respuesta. Además se proponen soluciones para solucionar algunos problemas detectados en la descripción de las patentes de
QlikView, las cuales pueden ayudar en el desarrollo de otras herramientas propietarias
o de código abierto. For a long time, relational databases have been used to obtain information in Business
Intelligence systems. As the amount of data increases, new analysis paradigms
and tools are needed. Nowadays on-line analytical processing (OLAP) systems handle
strategic information and enable fast, multidimensional, interactive and consistent
information analysis of data warehouses. In addition, the Associative Query Logic
(AQL) paradigm allows in-memory Business Intelligence tools, which can represent
large amounts of data in a way that allows extremely fast analysis.
In this thesis we present contributions in two areas of Business Intelligence systems.
First, we describe our experience in the migration from a real and large relational
database management system to an OLAP system on top of a relational layer
(the data warehouse), and the resulting contributions in open-source ROLAP optimization.
We exploit cache memory instead of cumbersome summarized tables to
improve system performance (in terms of response time). A cold start process brings
summarized data from the data warehouse to cache memory reducing the response
time. We ensure concurrent access to the summarized data, as well as consistency
in data warehouse updates. We also improve the OLAP functionality by defining
calculated dimensions, making possible to define new measures on the fly, without
re-designing the multidimensional cube.
Second, we present a web-based business intelligence tool following the AQL paradigm,
developed as an open-source, multi-platform software, relying on data compression
techniques for the storage of large amounts of data in main memory. The
performance of our solution in terms of compression, load time and response time
is close to that of the commercial tool of reference, QlikView. Moreover, we provide
solutions to some open problems in QlikView published description, which may be
beneficial to assist in the development of other open or proprietary tools.