Abstract:
RESUMEN:
En esta tesis se presenta un modelo computacional para la tarea de atribución de autorı́a no supervisada, también conocida como agrupación de documentos por autor.
El modelo se basa en un esquema tradicional de aprendizaje de máquina. Con este modelo, aplicando diferentes propuestas, se logró una mejora con respecto al resultado obtenido en el estado del arte (con el mismo corpora).
Para la extracción de caracterı́sticas se propone:
• un método para separar los tokens por tipos, para ası́gnar solo una categorı́a a cada token al usar concatenación de caracterı́sticas.
• la utilización de caracteres especiales como parte de los signos de puntuación, esto para mejorar el resultado obtenido al utilizar los n-gramas de caracteres tipados.
Además, se integran medidas de selección de caracterı́sticas no supervisada propuestos en el estado del arte (agrupación) que no han sido utilizados para el problema de atribución de autorı́a no supervisada. Posterior a esto se utiliza el PCA como método de reducción de caracterı́sticas para evaluar su comportamiento en base a la creación de grupos por autor.
Se plantean tres diferentes algoritmos de agrupación (jerárquico, k-means, espectral) para resolver la tarea, ası́ como cinco ı́ndices (Calinski-Harabaz, Davies-Bouldin, SD, S Dbw, Silhouette) para la validación de los grupos.
Se utiliza la medida similitud del coseno con pesos para reducir los valores entre los vectores (que representan los documentos) donde los atributos son exclusivos. Esta medida es la utilizada para determinar las distancias entre los documentos, las cuales son ocupadas posteriormente por el algoritmo de agrupación.
El modelo fue desarrollado y probado con el corpora proporcionado por el PAN, laboratorio de evaluación en detección de plagio, identificación de autorı́a y mal uso de software social (PAN 2017).
Como parte del desarrollo de esta tesis se participó en la tarea de atribución de autorı́a de dominio cruzado (Cross-domain Authorship Attribution) propuesta por el PAN en 2018 y 2019. Además se hizo la publicación de los artı́culos: ”CIC-GIL Approach to Cross-domain Authorship Attribution: Notebook for PAN at CLEF 2018” y ”Enhancement of Performance of Document Clustering in the Authorship Identification Problem with a Weighted Cosine Similarity” y se apoyo para realizar el artı́culo ”Hierarchical Clustering Analysis: The Best-Performing Approach at PAN 2017 Author Clustering Task”.
ABSTRACT:
This thesis presents a computational model for the unsupervised authorship attribution task, also known as clustering of documents by author.
The model is based on a traditional scheme of machine learning. With this model, applying different proposals, an improvement was achieved with respect to the result obtained in the state of the art (with the same corpora).
For the extraction of characteristics it’s proposed:
• a method to separate the tokens by types, to assign only one category to each token when using concatenation of characteristics.
• the use of special characters as part of the punctuation marks, this to improve the result obtained when using the typed character n-grams.
In addition, unsupervised features selection measures proposed in the state of the art (clustering) that have not been used for the problem of unsupervised authorship attribution are integrated. After this the PCA is used as a method of feature reduction to evaluate its behavior based on the creation of groups by author.
Three different cllustering algorithms are presented (hierarchical, k-means, spectral) to solve the task, as well as five indexes (Calinski-Harabaz, Davies-Bouldin, SD, S Dbw, Silhouette) for the validation of the clusters.
The measure weighted cosine similarity is used to reduce the values between the vectors (representing the documents) where the attributes are exclusive. This measure is the one used to determine the distances between the documents, which are later occupied by the grouping algorithm.
The model was developed and tested with the corpora provided by the PAN, evaluation laboratory in pla-giarism detection, identification of authorship and misuse of social software (PAN 2017).
As part of the development of this thesis, we participated in the Cross-domain Authorship Attribution task proposed by PAN in 2018 and 2019. In addition, the following articles were published: ”CIC-GIL Approach to Cross-domain Authorship Attribution: Notebook for PAN at CLEF 2018” and ”Enhancement of Performance of Document Clustering in the Authorship Identification Problem with a Weighted Cosine Similarity” and supported to carry out the article ”Hierarchical Clustering Analysis: The Best-Performing Approach at PAN 2017 Author Clustering Task”.
Description:
Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2019, 1 archivo PDF, (70 páginas). tesis.ipn.mx