DSpace Repository

Conversión de voz y separación de locutores

Show simple item record

dc.contributor.author Montaño Sánchez, César Edgar
dc.date.accessioned 2017-08-09T17:07:37Z
dc.date.available 2017-08-09T17:07:37Z
dc.date.created 2016-01
dc.date.issued 2017-06-07
dc.identifier.citation Montaño Sánchez, César Edgar. Conversión de voz y separación de locutores. Tesis (Maestría en Ciencias en Ingeniería de Cómputo). Ciudad de México, Instituto Politécnico Nacional, Sección de Estudios de Posgrado e Investigación, Centro de Investigación en Computación. 2016. 125 p. es
dc.identifier.uri http://tesis.ipn.mx/handle/123456789/22240
dc.description.abstract El análisis de señales de voz con el fin de hacer el reconocimiento del locutor va teniendo mayor número de aplicaciones en diversas áreas de la industria, ejemplos claros de sistemas que ocupan el reconocimiento de locutor son: sistemas de mandos por voz, sistemas de seguridad por autenticación de locutor, sistemas de marcado telefónico, control de robots; entre otros. De la misma forma los sistemas producción de voz sintética ya tienen un auge aun mayor, dado su uso en sistemas como: contestador telefónico, sistemas de ayuda en dispositivos móviles, síntesis de mensajes de texto, etc. De la unión de ambos tipos de sistemas surgen los sistemas de conversión de voz, donde se utilizan ambos estudios para realizar un reconocimiento de locutor o locutores para después reproducir el contenido fonético del mensaje con una voz sintetizada. La voz que será sintetizada se producirá con las características fonéticas de cualquiera de los locutores con los que cuente el sistema. El propósito de este trabajo es disponer de una arquitectura propuesta de caracterización de la voz de locutores, asimismo una vez lograda la correcta caracterización se pretende realizar la imitación de voz de un locutor al repetir el texto acotado por el otro locutor. Los principales parámetros que se analizan en este trabajo son los Codificadores predictivos lineales y los coeficientes cepstrales en la escala de Mel. Las técnicas empleadas son: Cuantificación vectorial, modelos ocultos de Markov discretos y de densidad continua, además de arquitecturas que combinan ambos análisis. Siendo la técnica de modelos ocultos de Markov de densidad continúa que utiliza coeficientes cepstrales en escala de Mel la que alcanzó el mayor porcentaje de exactitud en los corpus utilizados. Para la etapa de síntesis se probaron técnicas de síntesis por formantes, síntesis basadas en LPCs y síntesis por concatenación. El método utilizado para la síntesis fue el de concatenación, siendo las unidades lingüísticas utilizadas los di fonos. Los resultados cualitativos alcanzados tienen porcentaje de efectividad del 98% para la arquitectura total del sistema, dicho porcentaje de efectividad fue registrado con la realización de pruebas MOS, dichos resultados en esta tesis podrán ser utilizados en otras aplicaciones para traducción automática, conversión, doblaje y reconocimiento de voz. es
dc.description.sponsorship CONACYT es
dc.language.iso es_MX es
dc.publisher Montaño Sánchez, César Edgar es
dc.title Conversión de voz y separación de locutores es
dc.type Tesis es
dc.contributor.advisor Oropeza Rodríguez, José Luis
dc.contributor.advisor Suárez Guerra, Sergio


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account