Abstract:
RESUMEN: Las canciones infantiles forman parte la infancia de todo ser humano, estas canciones cuentan con grandes beneficios, entre ellas que permite desarrollar su vocabulario, ayuda a su desarrollo intelectual y también les enseña valores y principios básicos,sin embargo, existen canciones infantiles que influyen de forma negativa en los niños, ya que los enseña a tener un vocabulario agresivo y un mal comportamiento hacia los demás. Como respuesta a esta problemática en el presente trabajo se diseñó un algoritmo de Procesamiento de Lenguaje Natura (PLN) que realiza una clasificación de letras de canciones infantiles en clases positiva o negativa. Para la clasificación de este algoritmo se usó el algoritmo de k vecinos más cercanos junto con técnicas de preprocesamiento del corpus como son la tokenización, lematización, eliminación de stopwords y vectorización de palabras. Se efectuó una prueba de funcionamiento del algoritmo de k vecinos más cercanos considerando los 7 vecinos más cercanos y considerando un corpus lingüístico de 220 letras, este corpus fue dividido en un conjunto de entrenamiento del 70% y un conjunto de prueba del 30%, como resultado de esta prueba se obtuvo un porcentaje de precisión del 81.4%. Se diseñó un experimento que considera 3 factores que pueden afectar al porcentaje de precisión que tiene el algoritmo de clasificación k vecinos más cercanos, estos son i) errores ortográficos, ii) palabras en inglés y iii) letras en mayúsculas. Para estos experimentos se utilizó el análisis ANOVA que nos permite determinar cuáles factores afectan al sistema, se determinó que todos los factores influyen el porcentaje de precisión, sin embargo, las palabras en inglés afectan más al sistema, ya que todas las letras que se manejan para el preprocesamiento del corpus y para el entrenamiento del algoritmo están en español.
ABSTRACT: Children’s songs are part of the childhood of every human being, these songs have great benefits, among them that allows them to develop their vocabulary, helps their intellectual development and also teaches them values and basic principles, however, there are children’s songs that have a negative influence on children, as it teaches them to have an aggressive vocabulary and bad behavior towards others. In response to this problem, a Natural Language Processing (NLP) algorithm was designed to classify nursery rhyme lyrics into positive or negative classes. For the classification of this algorithm, the k-nearest neighbor algorithm was used together with corpus preprocessing techniques such as tokenization, lemmatization, stopword elimination and word vectorization. A performance test of the k nearest neighbors algorithm was performed considering the 7 nearest neighbors and considering a linguistic corpus of 220 letters, this corpus was divided into a training set of 70 % and a test set of 30 %, as a result of this test an accuracy percentage of 81.4 % was obtained. An experiment was designed that considers 3 factors that can affect the percentage of accuracy that the k nearest neighbor classification algorithm has, these are i) misspellings, ii) English words and iii) capitalized letters. For these experiments we used ANOVA analysis that allows us to determine which factors affect the system, it was determined that all factors influence the percentage of accuracy, however, the English words affect the system more, since all the letters that are handled for the preprocessing of the corpus and for the training of the algorithm are in Spanish.
Description:
Tesis (Ingeniería en Comunicaciones y Electrónica), Instituto Politécnico Nacional, ESIME, Unidad Zacatenco, 2022, 1 archivo PDF, (85 páginas). tesis.ipn.mx