Abstract:
RESUMEN:
El lenguaje natural es el medio de comunicación humana más utilizado, por lo tanto, juega un papel muy importante para una amplia gama de actividades humanas. En las últimas décadas, los avances en inteligencia artificial han abierto una puerta a la creación de máquinas capaces de procesar el lenguaje natural, ofreciendo resultados competitivos en comparación a los humanos en varias tareas, sin embargo, aún están muy lejos de lograr una comprensión profunda del discurso. Quizá la razón principal de esta dificultad se debe a ciertos aspectos del lenguaje que aún son demasiado complejos para ser modelados por medios computacionales, especialmente los niveles semántico y pragmático en textos más largos que una oración. Uno de esos aspectos son las anáforas indirectas, las cuales son utilizadas en casi cualquier discurso, y detectarlas es de alta relevancia para comprender los mensajes. En este trabajo enfrentamos el problema de resolver anáforas indirectas mediante la inclusión de información léxica, específicamente empleamos representaciones de sentidos (sense embeddings) para este fin. Dichas representaciones han demostrado su utilidad en varias tareas de PLN, sin embargo, no han sido utilizadas previamente en resolución de anáforas indirectas. Nuestros hallazgos muestran que la información léxica, aunque no es suficiente para resolver las anáforas, resulta necesaria para detectar anáforas indirectas presentes en escenarios sin restricciones, que son lingüísticamente más complejos y suelen ser ignorados en la literatura.
ABSTRACT:
Natural language is probably the most used human means of communication; hence it plays a very important role for a wide range of human activities. In recent decades advances in artificial intelligence have opened a door for creating machines able to process natural languages offering competitive results versus humans in several NLP tasks, yet they are still too far from achieving a deep understanding of discourse. The main reason for these shortcomings could be due to certain aspects of language which are still too complex to model by computational means, especially the semantic and pragmatic levels in texts longer than a sentence. One of those aspects is the bridging anaphora, they are indirect references used in almost any discourse, and detect them is highly relevant to understand the communication. In this work we face the problem of bridging anaphora resolution by the inclusion of lexical information, specifically we employed sense embeddings to model it. Such embeddings are a special kind of word embedding which achieve good results in a variety of NLP tasks but have not been used before for bridging anaphora resolution. The results show that lexical information although not enough to solve anaphora, is still necessary to detect complex bridging anaphora in unrestricted scenarios, which are linguistically more complex than the kind of anaphora usually found in most of bridging literature.
Description:
Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2019, 1 archivo PDF, (59 páginas). tesis.ipn.mx