Please use this identifier to cite or link to this item: http://tesis.ipn.mx/handle/123456789/22261
Title: Aplicación de métodos de procesamiento digital de voz a señales de audio para la extracción de características de interés para el lenguaje musical.
Authors: Tovar Castrejón, Pablo
Suárez Guerra, Sergio
Issue Date: 7-Jun-2017
Publisher: Tovar Castrejón, Pablo
Citation: Tovar Castrejón, Pablo. Aplicación de métodos de procesamiento digital de voz a señales de audio para la extracción de características de interés para el lenguaje musical. Tesis (Maestría en Ciencias en Ingeniería de Cómputo). Ciudad de México, Instituto Politécnico Nacional, Sección de Estudios de Posgrado e Investigación, Centro de Investigación en Computación. 2016. 82 p.
Abstract: En el presente trabajo se propone un sistema para el análisis de pistas de audio generadas por un instrumento musical con el objetivo de extraer características de interés para el lenguaje musical a modo de obtener una representación gráfica de la misma con resultados comparables a otros trabajos del estado del arte. Entre las técnicas utilizadas se encuentran la extracción de los Mel Frequency Cepstral Coefficients (MFCC), el uso de Redes Neuronales y Modelos Ocultos de Markov. El instrumento musical que se eligió fue el piano, mismo que es considerado uno de los instrumentos musicales más completos debido al amplio rango de frecuencias que puede emitir, así como la enorme variedad de combinaciones de notas que puede generar. Para la clasificación de 48 notas musicales y 96 acordes (144 emisiones sonoras en total) provenientes de un piano se utilizaron los MFCCs como vector de características, lo cual permitió la identificación no solo de notas musicales y acordes mayores y menores, sino también la octava a la que estos pertenecen. Esto permite dar un paso adelante en la extracción de características de la música a comparación de otros trabajos del estado del arte como el propuesto por Papadopoulos [Pap07] en donde se propone un método para clasificar acordes emitidos por el piano sin tomar en cuenta la octava, lo cual limita su conjunto de análisis a 24 acordes, o bien trabajos como el presentado por Mauch [Mau10] en donde se propone un método para la clasificación de acordes emitidos por la guitarra, en donde la octava del acorde no es de importancia, reportando una clasificación de 71% para 109 acordes. Una vez extraídos los vectores de características de una pieza musical generada por un piano se desarrolló un sistema de redes neuronales que funciona como árbol de decisiones, el cual toma como entrada los Mel Frequency Cepstral Coefficients y entrega a la salida el código MIDI de la emisión sonora identificada. Este enfoque de niveles es innovador y permite aumentar el número de emisiones sonoras a clasificar sin reducir de manera drástica el porcentaje de clasificaciones correctas. Bajo la clasificación propuesta en el presente trabajo se llega a un 83% de emisiones sonoras correctamente clasificadas en el caso de acordes mayores o menores y de un 92% para notas musicales. Una vez que se han obtenido los códigos MIDI se obtiene una secuencia con la información estimada de la señal de audio. Estas secuencias MIDI son susceptibles a presentar errores principalmente debidos a intervalos de análisis en los que se presentan cambios de nota o acorde. Es por ello que se proponen diversos métodos para reducir estos errores de clasificación. Entre los métodos presentados destacan los basados en Modelos Ocultos de Markov, mismos que se utilizan como filtros de secuencias MIDI. Como primera aproximación se toma un modelo similar al propuesto por Barbancho [Bar12] en donde se genera un único Modelo Oculto de Markov para la clasificación de acordes de guitarra en donde los símbolos observables corresponden al cromagrama de la señal de audio y cada estado oculto se corresponde con un acorde a clasificar. Bajo esta perspectiva Barbancho reporta un porcentaje de acordes correctamente clasificados del 87% para 330 posiciones en la guitarra. En el presente trabajo gracias al uso de un HMM como filtro se logra aumentar el porcentaje de notas correctamente clasificadas un 4%, llegando también a un 87% de clasificaciones correctas para 144 emisiones sonoras. En este punto cabe mencionar que a pesar de que el conjunto de emisiones sonoras aquí analizadas tiene una menor cardinalidad que el reportado por Barbancho éste incluye clasificaciones no solo de acordes, sino separación entre notas musicales y acordes, incluyendo en todos los casos la octava a la que estos pertenecen. Por otro lado también se propone el uso de un Modelo Oculto de Markov por cada emisión sonora a identificar compuestos de dos estados ocultos cada uno, con lo que dada una secuencia MIDI se busca el modelo que la genera con una mayor probabilidad. De la misma manera fue posible hacer uso del segundo enfoque en el uso de HMM para la identificación de notas musicales a las que se le aplica un vibrato. Con esto se aporta una visión innovadora en lo que podría entenderse como una segunda etapa de clasificación de emisiones sonoras.
URI: http://tesis.ipn.mx/handle/123456789/22261
Appears in Collections:1. Tesis

Files in This Item:
File Description SizeFormat 
XM 16.27.pdf4.43 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.