Abstract:
RESUMEN: Las búsquedas en Internet son algo cotidiano, pero debemos ser conscientes de que más de una persona busca el mismo tema con diferentes palabras; esto es una manifestación del fenómeno de parafraseo.
Parafrasear implica cambios sintácticos y la superposición de palabras, ligadas a las reglas del
idioma en el que trabajamos. La identificación de paráfrasis es un problema de gran importancia
para el Procesamiento del Lenguaje Natural (PLN), especialmente parafraseando preguntas con
la misma intención. Además, se ha encontrado que para el estudio de las similitudes no se tienen en cuenta algunas características, lo que hace que la identificación arroje menores resultados.
En esta tesis, abordamos el problema de la identificación automática de paráfrasis en el conjunto de datos Quora Question Pair (QQP), prestando especial atención a la forma de los datos a través del análisis exploratorio de datos (EDA) y la búsqueda de patrones, esto es con el fin de obtener
mejores resultados en las tareas de identificación, así como comparar diferentes clasificadores
con distintas configuraciones.
ABSTRACT: Searches on the Internet are commonplace, but we must be aware that more than one person
searches for the same topic with different words; this is a manifestation of the paraphrasing
phenomenon.
Paraphrasing implies syntactic changes and the overlapping of words, linked to the rules of the
language in which we work. The identification of paraphrases is a problem of great importance
for Natural Language Processing (NLP), especially paraphrasing questions with the same intention.
In addition, it has been found that for the study of similarities some characteristics are not taken
into account, which means that the identification yields fewer results.
In this thesis, we address the problem of automatic identification of paraphrases in the Quora
Question Pair (QQP) data set, paying special attention to the shape of the data through exploratory
data analysis (EDA) and the pattern search, this is in order to obtain better results in the
identification tasks, as well as compare different classifiers with different configurations.
Description:
Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2022, 1 archivo PDF, (95 páginas). tesis.ipn.mx