Show simple item record

dc.contributor.advisorCosta Montenegro, Enrique 
dc.contributor.advisorFernández Gavilanes, Milagros 
dc.contributor.authorGarcía Méndez, Silvia 
dc.date.accessioned2021-02-19T10:58:05Z
dc.date.available2021-02-19T10:58:05Z
dc.date.issued2021-02-19
dc.date.submitted2021-01-27
dc.identifier.urihttp://hdl.handle.net/11093/1775
dc.description.abstractIn this thesis, we present our research aligned with the field of Natural Language Generation (NLG). Our work represents an effort to bring NLG capabilities to the research community for Spanish language. In this line, several contributions will be presented with the aim of extending the state of the art in this research area. Accordingly, we present a detailed description of the resources created and the architectures designed for NLG taking into consideration the main stages in the traditional pipeline: content determination, text structuring, lexicalisation, and finally, realisation. For this purpose, we created several linguistic resources paying special attention to coverage and accuracy. They contain a wide range of linguistic data, that is, morphological, syntactic and semantic information: aLexiS (a Lexicon for Spanish), eLSA (Augmentative and Alternative Spanish Lexicon) and aLexiE (a Lexicon for English). This work is motivated by the lack of complete linguistic resources useful for real NLG applications, specially in the case of Spanish language. In this line, both aLexiS and aLexiE will be useful in many use cases such as report generation. On the other hand, the eLSA lexicon aims at improving NLG systems to help people diagnosed with communication disorders. In terms of libraries developed for NLG, we present several contributions. Firstly, we introduce the adaptation of the popular SimpleNLG library to Spanish and an enhanced version of it with automatic performance which expands text from keywords. Both solutions can provide applications, such as web apps, with valuable NLG capabilities. Moreover, we present a modular and hybrid architecture for NLG. It combines linguistic knowledge and statistical information (a language model to infer prepositions) to address the NLG task automatically. At the end, our system is able to generate complete, coherent and grammatically/orthographically correct sentences in Spanish from the keywords provided by the users (such as adjectives, nouns and verbs). The main strength of the architecture is its modular feature. This means its constituents (lexicon, grammar and realiser) could be reused or substituted to address other generation challenges or to improve the performance of the system. Moreover, our NLG architecture was designed to be efficient in terms of time required to generate the output but also to be easily extended to other languages, even if they are not linguistically similar like Spanish and English. We prove this valuable feature extending our NLG system to English language. Besides, both NLG systems presented, for Spanish and English, have been evaluated using popular metrics in the state of the art and manual annotations. Finally, the research results obtained are promising and they encourage me to continue my research on the field of automatic NLG systems.spa
dc.description.abstractEl área de investigación en el que se enmarca esta tesis doctoral es la generación de lenguaje natural (del inglés Natural Language Generation). Este campo ha pasado de ser una idea utópica en la literatura de fantasía (por ejemplo, el cuento titulado La Biblioteca de Babel de Jorge Luis Borges) a convertirse en un tema central de investigación para la comunidad científica. Concretamente, nuestro trabajo se centra en la generación automática de oraciones en lenguaje natural siguiendo un enfoque híbrido. Para ello combinamos conocimiento lingüístico y estadístico. El primero hace referencia a léxicos y gramáticas que hemos creado durante nuestra investigación. El segundo hace referencia a modelos de lenguaje que han sido diseñados con el objetivo de inferir preposiciones. Todo ello prestando especial atención a la información semántica. Nos gustaría recalcar que en el momento de escribir esta tesis no existía ningún sistema automático de generación de lenguaje natural que fuese fácilmente adaptable a otros idiomas. Dicho sistema será útil en múltiples escenarios, desde los más tradicionales para mejorar la comunicación hombre-máquina y la generación automática de informes, hasta los más sociales como por ejemplo ayudar a las personas con discapacidad comunicativa. Por ello, esta tesis doctoral pretende contribuir al estado del arte de la generación de lenguaje natural con un marco efectivo y flexible para crear sistemas de expansión de texto en diferentes idiomas. A continuación, enumeramos los objetivos marcados al inicio de la tesis tras realizar un profundo análisis del estado del arte en este campo: • Creación de un léxico para castellano que incluya una gran cantidad de información no solo a nivel de número de entradas sino también en cuanto a la variedad de datos lingüísticos (morfología, sintaxis y semántica) y que además tenga una alta precisión. • Diseño e implementación de un sistema automático de generación de lenguaje natural para castellano a partir de la adaptación de la librería SimpleNLG. • Diseño e implementación de una arquitectura modular e híbrida que combine conocimiento lingüístico y estadístico para crear sistemas automáticos de expansión de texto en diferentes idiomas. • Creación de un sistema de generación de lenguaje natural para castellano a través de la arquitectura anterior. • Creación de un sistema de generación de lenguaje natural en inglés para probar la flexibilidad de la arquitectura propuesta. Esto implica la creación de un léxico en inglés con información morfológica, sintáctica y semántica. • Prueba del funcionamiento de ambas versiones en castellano e inglés en un comunicador real. En resumen, la principal contribución de esta tesis doctoral es el diseño e implementación de una arquitectura modular para crear sistemas de generación de lenguaje natural en diferentes idiomas. Sin embargo, los léxicos que hemos creado durante nuestra investigación, concretamente aLexiS, eLSA y aLexiE (los dos primeros para castellano y el último para inglés), constituyen contribuciones valiosas por sí mismas. Además del conocimiento lingüístico que incluyen, simplifican la interfaz de entrada de los sistemas expansión de texto evitando así esquemas de datos de entrada complejosspa
dc.language.isoengspa
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Spain
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.titleContribution to Natural Language Generation for Spanishspa
dc.title.alternativeAportación a la Generación de Lenguaje Natural para españolspa
dc.title.alternativeAportación á Xeración de Linguaxe Natural para españolspa
dc.typedoctoralThesisspa
dc.rights.accessRightsopenAccessspa
dc.publisher.departamentoEnxeñaría telemáticaspa
dc.publisher.grupoinvestigacionGrupo de Tecnoloxías da Informaciónspa
dc.publisher.programadocPrograma de Doutoramento en Tecnoloxías da Información e as Comunicacións pola Universidade de Vigo (RD 99/2011)
dc.subject.unesco5701.04 Lingüística Informatizadaspa
dc.subject.unesco5705.08 Semánticaspa
dc.subject.unesco3304.16 Diseño Lógicospa
dc.date.read2021-02-05
dc.date.updated2021-02-03T07:49:30Z
dc.advisorID4000
dc.advisorID5358


Files in this item

[PDF]
[PDF]

    Show simple item record

    Attribution-NonCommercial-NoDerivs 3.0 Spain
    Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Spain