FECHA:
2021-11-08
IDENTIFICADOR UNIVERSAL: http://hdl.handle.net/11093/2647
MATERIA UNESCO: 1203.04 Inteligencia Artificial ; 1209.09 Análisis Multivariante ; 1209.15 Series Temporales
TIPO DE DOCUMENTO: doctoralThesis
RESUMEN
In recent years the demand for High-performance computing (HPC) data centers has increased. HPC often consists of thousands of computing services. Given the high costs related with the setup of such systems, it is vital that the service provider maximize the utilization of the limited data center resources as efficiently as possible and reduce the service cost to fit the “pay as you go” pricing model.
As HPC systems and applications continue to increase in complexity, HPC systems become more exposed for performance problems like (resource contention, software- and firmware-related problems, etc.) that can lead to premature job termination, reduced performance, and wasted compute platform resources. Permanent management of such systems health well has a huge impact financially and operationally. So it is essential for the HPC operators to monitor and analyze the performance of such complex system environment.
Manually monitoring systems in this size and complexity is an impossible task; since it generates a huge amount of data as metrics of resource usage data and other key performance indicators (KPI) per day form thousands of computational nodes. There is a lot of visualizing toots available that monitors and collect HPC performance data that may contain evidence of anomalies, but the problem is the lack of analytic engine to process this data to identify performance anomalies activity.
Therefore, performance problem management has become a major task in HPC cloud environment which includes on three main tasks:
(i) Real-time detection of performance Anomalies within HPC cloud datacenters.
(ii) Identifying the root cause of these anomalies.
(iii) Identify methods to prevent these anomalies from occurring.
These performance problems moved the research on computational intelligence into a new era to develop the tools and techniques to identify these anomalies. These tools use some data analytic techniques such as (Statistical, Machine Learning, Time series, Threshold, etc.) that capture information on a large number of the time-varying system performances metrics, and then analyze the relationships among system components and applications. En los últimos años, la demanda de centros de datos de computación de alto rendimiento (HPC) ha aumentado. HPC a menudo consta de miles de servicios informáticos. Debido a los altos costos relacionados con la configuración de dichos sistemas, es vital que el proveedor de servicios maximice la utilización de los recursos limitados del centro de datos de la manera más eficiente posible y reduzca el costo del servicio para adaptarse al modelo de negocio de "pago por uso".
A medida que los sistemas y aplicaciones HPC aumentan en complejidad, los sistemas HPC se vuelven más expuestos a problemas de rendimiento, como contención de recursos, problemas relacionados con software y firmware, que pueden llevar a la finalización prematura de los trabajos de cómputo, rendimiento reducido y al desperdicio de los recursos de computación. La gestión permanente de dichos sistemas también tiene un gran impacto desde el punto de vista financiero y operativo. Por lo tanto, es esencial que los operadores de HPC supervisen y analicen el rendimiento de estos entornos tan complejos.
La supervisión manual de sistemas de este tamaño y complejidad es una tarea imposible; ya que se genera una gran cantidad de datos diarios. Estos valores son el resultado de los diferentes sistemas de monitorización que vuelcan diferentes métricas de uso de recursos u otros indicadores de rendimiento. Existen diversas herramientas gráficas que permiten recopilar y visualizar los datos obtenidos en los miles de nodos de los centros de computación. Sin embargo, es preciso disponer de un sistema automático que sea capaz de analizar y detectar de forma temprana las diferentes anomalías que se produzcan en estos nodos y/o en el sistema en su globalidad.
Por lo tanto, la gestión del rendimiento de estos recursos computaconales se ha convertido en una tarea importante en el entorno de los sistemas HPC, que incluye tres tareas principales: (i) Detección en tiempo real de anomalías de rendimiento dentro de los centros de datos en la nube de HPC; (ii) identificación de la causa raíz de estas anomalías; e (iii) identificación de métodos que eviten, si es posible, la ocurrencia de estas anomalías.
El análisis del rendimiento de equipos HPC requiere de técnicas de inteligencia computacional que, apoyadas en técnicas de análisis de datos (estadística, aprendizaje automático, series temporales, selección de valores umbrales, etc.) permiten capturar información volcada por los diferentes sensores de los centros HPC, analizarla en tiempo real y detectar potenciales comportamientos anómalos que puedan ser indicio de fallos y/o reducciones en el rendimiento de los sistemas. Nos últimos anos creceu a demanda de centros de datos de computación de alto rendemento (HPC). HPC adoita consistir en miles de servizos informáticos. Dados os altos custos relacionados coa configuración destes sistemas, é vital que o proveedor de servizos maximice a utilización dos recursos do centro de datos o máis eficientemente posible e reduza o custo do servizo para axustar o modelo de prezos de "pago por uso".
Como os sistemas e aplicacións HPC continúan aumentando de complexidade, os sistemas de HPC están cada vez máis expostos a problemas de rendemento como contención de recursos, problemas de software e firmware, que poden levar á finalización prematura dos cómputos, un desempeño reducido ou perdas de recursos na plataforma de cálculo. A xestión permanente destes sistemas ten tamén un enorme impacto financeiro e operativo. Por iso, é esencial que os operadores de HPC controlen e analicen o desempeño destes sistemas tan complexos.
Estes sistemas xenera unha gran cantidade de datos diarios, como métricas de datos de uso dos recursos ou outros indicadores de rendemento (KPI). Este elevado volumen imposibilita un control manual. Polo que se recurre a sistemas automáticos de control. De feito, existen opcións gráficas para a visualización dos datos recolectados para evaluar o rendemento das unidades de HPC que poden conter evidencias de anomalías. Nembargantes, o problema é a falta de un motor analítico para procesar estes datos que permita identificar anomalías nos patróns de actividade e de rendemento.
Polo tanto, a xestión de problemas de rendemento converteuse nunha tarefa importante no ámbito da nube HPC que inclúe tres tarefas principais: (i) análisis de rendemento en tempo real, comprobando as potenciais anomalías nos centros de datos da nube HPC; (ii) identificar a causa raíz destas anomalías; e (iii) identificar métodos para evitar que ocorran estas anomalías.
Estes problemas de rendemento trasladaron a investigación sobre intelixencia computacional a unha etapa era para desenvolver as ferramentas e técnicas precisas para identificar estas anomalías. Estas ferramentas utilizan algunhas técnicas analíticas de datos como estatística, aprendizaxe de máquinas, series de tempo, limiar, etc. que capturan información sobre un gran número de métricas de rendementos do sistema en función do tempo e, a continuación, analizan as relacións entre os compoñentes do sistema e as aplicacións.