Voice personalization and speaker de-identification in speech processing systems
DATE:
2019-06-21
UNIVERSAL IDENTIFIER: http://hdl.handle.net/11093/1284
UNESCO SUBJECT: 1203.04 Inteligencia Artificial ; 1203 Ciencia de Los Ordenadores ; 3304.13 Dispositivos de Transmisión de Datos
DOCUMENT TYPE: doctoralThesis
ABSTRACT
This PhD dissertation is part of the research proyect SpeechTech4All, dedicated to the advanced research in the main speech technologies in all the official languages spoken in Spain, the speaker's emotion recognition, and the construction of experimental frameworks to show the realized work. It is a coordinated proyect with the Polytechnic University of Catalunya and the University of the Basque Country.
Specifically, the PhD dissertation falls within in the work package 1 (voice generation) of the proyect. At present, the group of Vigo has his own unit selection based TTS system in Galician and Spanish (called Cotovía and available as open source in http://sourceforge.net/projects/cotovia/). Throughout this proyect, experiments with HMM-based speech techniques has been started. Thus, the lingüistic information provided by Cotovía has already been integrated in the HTS system (http://hts.sp.nitech.ac.jp/), and the HMMs corresponding to the different speakers employed in Cotovía have been generated.
The purpose of the dissertation is the development of new algorithms and/or improvement of existing algorithms in order to obtain a synthetic speech of higher quality and/or adapt the speech quality to the requirements of the application in which it will be used (a tradeoff among memory, computational load and quality). With this aim, we will work on unit selection and HMM-based synthesis techniques, and also with hybrid models (combination of unit selection and HMM-based techniques). In addition, in order to provide the speech synthesis systems with a larger number of speakers and speaking styles, we will work on speaker adaptation techniques. We also contemplate the possibility of using the speech synthesis systems to analyze the robustness of speech identification systems. Esta tesis doctoral se enmarca dentro del proyecto de investigación SpeechTech4All, dedicado a la investigación avanzada en las principales tecnologías del habla en todas las lenguas oficiales habladas en España, al reconocimiento del estado emocional del hablante, y a la construcción de marcos experimentales que permitan mostrar el trabajo realizado. Se trata de un proyecto coordinado con la Universidad Politécnica de Cataluña y la Universidad del País Vasco.
Concretamente, la tesis se encuadra dentro del paquete de trabajo 1 (generación de voz) del proyecto. En la actualidad, el grupo de Vigo dispone de su propio conversor texto-voz en gallego y castellano (denominado Cotovía y disponible como código abierto en http://sourceforge.net/projects/cotovia/), basado en técnicas de selección de unidades. A lo largo del presente proyecto se ha comenzado a trabajar en técnicas de síntesis de voz basadas en HMMs. Así, la información lingüística proporcionada por el conversor Cotovía ya ha sido integrada en el sistema HTS (http://hts.sp.nitech.ac.jp/), y se han generado los HMMs correspondientes a los distintos locutores empleados en Cotovía.
El propósito de la tesis es el desarrollo de nuevos algoritmos y/o mejora de los algoritmos ya existentes con el objetivo de obtener una voz sintética de mayor calidad y/o adecuar la calidad de la voz a los requisitos de la aplicación en la que será utilizada (compromiso entre memoria, carga computacional y calidad). Con este objeto se trabajará en las técnicas de selección de unidades y síntesis por HMMs, así como con modelos híbridos (combinación de las técnicas de selección de unidades y de HMMs). Además, de cara a dotar a los sistemas de síntesis de voz de un mayor número de locutores y estilos de habla, se trabajará con técnicas de adaptación de locutor. También se contempla la posibilidad de utilizar sistemas de síntesis de voz para analizar la robustez de los sistemas de identificación por voz. Esta tese doutoral enmárcase dentro do proxecto de investigación SpeechTech4All, dedicado á investigación avanzada nas principais tecnoloxías da fala en tódalas linguas oficiais faladas en España, ó recoñecemento do estado emocional do falante, e á construción de marcos experimentais que permitan mostrar o traballo realizado. Trátase dun proxecto coordinado coa Universidade Politécnica de Cataluña e a Universidade do País Vasco.
Concretamente, a tese encádrase dentro do paquete de traballo 1 (xeración de voz) do proxecto. Na actualidade, o grupo de Vigo dispón do seu propio convertedor texto-voz en galego e castelán (denominado Cotovía e dispoñible como código aberto en http://sourceforge.net/projects/cotovia/), baseado en técnicas de selección de unidades. Ó longo do presente proxecto comezouse a traballar en técnicas de síntese de voz baseadas en HMMs. Así, a información lingüística proporcionada polo convertedor Cotovía xa foi integrada no sistema HTS (http://hts.sp.nitech.ac.jp/), e xeráronse os HMMs correspondentes ós distintos locutores empregados en Cotovía.
O propósito da tese é o desenvolvemento de novos algoritmos e/ou mellora dos algoritmos xa existentes co obxectivo de obter unha voz sintética de maior calidade e/ou adecuar a calidade da voz ós requisitos da aplicación na que será utilizada (compromiso entre memoria, carga computacional e calidade). Con este obxecto traballarase nas técnicas de selección de unidades e síntese por HMMs, así como con modelos híbridos (combinación das técnicas de selección de unidades e de HMMs). Ademais, de cara a dotar ós sistemas de síntese de voz dun maior número de locutores e estilos de fala, traballarase tamén con técnicas de adaptación de locutor. Tamén se contempla a posibilidade de utilizar sistemas de síntese de voz para analizar a robustez dos sistemas de identificación por voz.
Files in this item
![pdf [PDF]](/xmlui/themes/Mirage2/images/thumbnails/mimes/pdf.png)
- Name:
- MagariñosIglesias_MariaCarmen_ ...
- Size:
- 4.689Mb
- Format:
- Description:
- Versión pública
![pdf [PDF]](/xmlui/themes/Mirage2/images/thumbnails/mimes/pdf.png)
- Name:
- MagariñosIglesias_MariaCarmen_ ...
- Size:
- 4.656Mb
- Format:
- Description:
- Versión restrinxida