A framework to extract biomedical knowledge from gluten-related tweets: the case of dietary concerns in digital era
FECHA:
2021-08
IDENTIFICADOR UNIVERSAL: http://hdl.handle.net/11093/2307
VERSIÓN EDITADA: https://linkinghub.elsevier.com/retrieve/pii/S093336572100124X
MATERIA UNESCO: 1203.12 Bancos de Datos
TIPO DE DOCUMENTO: article
RESUMEN
Big data importance and potential are becoming more and more relevant nowadays, enhanced by the explosive growth of information volume that is being generated on the Internet in the last years. In this sense, many experts agree that social media networks are one of the internet areas with higher growth in recent years and one of the fields that are expected to have a more significant increment in the coming years. Similarly, social media sites are quickly becoming one of the most popular platforms to discuss health issues and exchange social support with others. In this context, this work presents a new methodology to process, classify, visualise and analyse the big data knowledge produced by the sociome on social media platforms. This work proposes a methodology that combines natural language processing techniques, ontology-based named entity recognition methods, machine learning algorithms and graph mining techniques to: (i) reduce the irrelevant messages by identifying and focusing the analysis only on individuals and patient experiences from the public discussion; (ii) reduce the lexical noise produced by the different ways in how users express themselves through the use of domain ontologies; (iii) infer the demographic data of the individuals through the combined analysis of textual, geographical and visual profile information; (iv) perform a community detection and evaluate the health topic study combining the semantic processing of the public discourse with knowledge graph representation techniques; and (v) gain information about the shared resources combining the social media statistics with the semantical analysis of the web contents. The practical relevance of the proposed methodology has been proven in the study of 1.1 million unique messages from >400,000 distinct users related to one of the most popular dietary fads that evolve into a multibillion-dollar industry, i.e., gluten-free food. Besides, this work analysed one of the least research fields studied on Twitter concerning public health (i.e., the allergies or immunology diseases as celiac disease), discovering a wide range of health-related conclusions. La importancia y el potencial del big data son cada vez más relevantes en la actualidad, potenciados por el crecimiento explosivo del volumen de información que se está generando en Internet en los últimos años. En este sentido, muchos expertos coinciden en que las redes sociales son una de las áreas de Internet con mayor crecimiento en los últimos años y uno de los campos que se espera que tenga un incremento más significativo en los próximos años. Del mismo modo, los sitios de medios sociales se están convirtiendo rápidamente en una de las plataformas más populares para discutir temas de salud e intercambiar apoyo social con otros. En este contexto, este trabajo presenta una nueva metodología para procesar, clasificar, visualizar y analizar el conocimiento de big data producido por el socioma en las plataformas de medios sociales. Este trabajo propone una metodología que combina técnicas de procesamiento del lenguaje natural, métodos de reconocimiento de entidades con nombre basados en ontologías, algoritmos de aprendizaje automático y técnicas de minería de grafos para (i) reducir los mensajes irrelevantes identificando y centrando el análisis sólo en los individuos y las experiencias de los pacientes de la discusión pública; (ii) reducir el ruido léxico producido por las diferentes formas de expresarse de los usuarios mediante el uso de ontologías de dominio; (iii) inferir los datos demográficos de los individuos a través del análisis combinado de la información textual, geográfica y visual del perfil; (iv) realizar una detección de comunidades y evaluar el estudio de temas de salud combinando el procesamiento semántico del discurso público con técnicas de representación de grafos de conocimiento; y (v) obtener información sobre los recursos compartidos combinando las estadísticas de los medios sociales con el análisis semántico de los contenidos web. La relevancia práctica de la metodología propuesta se ha comprobado en el estudio de 1,1 millones de mensajes únicos de >400.000 usuarios distintos relacionados con una de las modas dietéticas más populares que evolucionan hasta convertirse en una industria multimillonaria, es decir, los alimentos sin gluten. Además, este trabajo analizó uno de los campos de investigación menos estudiados en Twitter en lo que respecta a la salud pública (es decir, las alergias o enfermedades inmunológicas como la celiaquía), descubriendo una amplia gama de conclusiones relacionadas con la salud.