Resolución automática de la homonimia morfológica para el español

Gómez Balderas, José Ernesto

DSpace Home
→
3.- Unidades Académicas de Nivel Posgrado
→
Centros de Investigación y Posgrado
→
CIC
→
1. Tesis
→
View Item

dc.contributor.author	Gómez Balderas, José Ernesto
dc.date.accessioned	2013-02-18T18:18:02Z
dc.date.available	2013-02-18T18:18:02Z
dc.date.created	2007
dc.date.created	2007-04
dc.date.issued	2013-02-16
dc.identifier.citation	Gómez Balderas, José Ernesto. (2007). Resolución automática de la homonimia morfológica para el español. (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.	es
dc.identifier.uri	http://tesis.ipn.mx/handle/123456789/11288
dc.description	Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2007, 1 archivo PDF, (90 páginas). tesis.ipn.mx	es
dc.description.abstract	RESUMEN: Presentamos un modelo y un método para resolver el problema de etiquetación de categorías gramaticales usando solamente información gramatical. El problema consiste en la asignación de manera correcta, de la etiqueta de una categoría gramatical a cada palabra. El problema no es simple debido a la gran extensión de la homonimia morfológica, por ejemplo la palabra trabajo puede ser verbo o sustantivo, etc. La resolución de todos los tipos de homonimia se realiza por un lector humano de acuerdo al contexto de las palabras. Tratamos de encontrar una forma para la resolución automática de la homonimia morfológica, usando la metodología de las redes neuronales y el algoritmo de retropropagación. Experimentamos con datos en español. El sistema de etiquetación implementado utiliza información del contexto correspondiente a la categoría gramatical. Esta información es representada en forma de etiqueta. Las aplicaciones potenciales de este sistema existen en muchas áreas incluyendo reconocimiento del habla, síntesis del habla, traducción, desambiguación y recuperación de información. Usamos el conocimiento explicito de las etiquetas de los contextos antecedentes y subsecuentes para representar las entradas de las redes neuronales. En el experimento, usamos distintas redes neuronales con el propósito de asignar etiquetas de clases gramaticales a palabras desconocidas o escoger la etiqueta correcta de un conjunto de etiquetas asignadas por un analizador morfológico. Las redes neuronales usan un número diferente de etiquetas de contextos hacia la izquierda y hacia la derecha (hasta 3). La decisión final es tomada en base a la “votación” de las redes. De la misma manera, llevamos a cabo más experimentos usando estas redes con pesos adicionales. Los resultados de este trabajo están divididos en dos partes. En la primera parte, analizamos los resultados de la ejecución de la etiquetación de categorías gramaticales, es decir asignamos etiquetas en base al contexto. En la segunda parte, analizamos los resultados obtenidos de la resolución automática de la homonimia morfológica, es decir escogimos la etiqueta correcta de un conjunto de posibles etiquetas. El método propuesto tiene un alto nivel de precisión cuando existe información completa en los contextos anteriores y posteriores de hasta 46% para la primera tarea y hasta 76% para la segunda tarea. La principal contribución de este trabajo comparado con otras propuestas es el uso de etiquetas de contextos solamente, ignorando la información léxica. Esto nos permite reducir significativamente el espacio de decisión.	es
dc.description.abstract	ABSTRACT: We present a model and a method for solving the problem of part of speech tagging using the grammatical information only. The problem consists in assigning the correct tag of a grammatical category to each word. The problem is not simple due to the widely spread morphological homonymy, for example, work can be verb or noun, etc. The resolution of all kinds of homonymy is carried out by a human reader according to words from the context. We try to find a way for automatic resolution of morphologic homonymy using neural networks methodology with back propagation algorithm. We experimented on Spanish data. We implemented tagging system that uses the corresponding information of parts of speech of the context. This information is represented in form of tags. Potential applications of this system exist in many areas, including speech recognition, speech synthesis, translation, disambiguation and information retrieval. We used the explicit knowledge of antecedent and subsequent contexts tags for representing input of neural networks. In the experiment, we used various neural networks, with the purpose of assigning grammatical class tags to unknown words or to choose the correct tag from a set of tags assigned by a morphological analyzer. The neural networks use different number of context tags to the left and to the right (till 3). The final decision is taken on the basis of “voting” of the networks. In the same manner, we conducted more experiments using these networks with additional weights. The results of this work are divided in two parts. In the first part, we analyze the results of performance of a part of speech tagging, i.e., we assign the tags on the basis of the context. In the second part, we analyze results in automatic morphologic homonymy resolution, i.e., we choose the correct tag of the set of possible tags. Proposed method has high precision, when there is complete information available of the previous and subsequent contexts, namely, till 46% for the first task, and till 76% for the second task. The main contribution of this work as compared to other approaches is the usage of the context tags only, thus, ignoring lexical information. It allows for reducing significantly the decision space.	es
dc.language.iso	es	es
dc.subject	Neuronas biologicas	es
dc.title	Resolución automática de la homonimia morfológica para el español	es
dc.type	Thesis	es
dc.contributor.advisor	Sidorov, Grigori	es
dc.contributor.advisor	Jiménez Salazar, Héctor	es