Abstract:
RESUMEN: El Leet Speaking se ha impuesto como una técnica sencilla de ofuscación de información principalmente en jóvenes y adolescentes en las redes sociales. Su objetivo: camuflar el sentido del mensaje a transmitir. Se lleva a cabo mediante la modificación de algunos caracteres en el cuerpo del texto con otros que tengan características visuales similares al carácter que se desea reemplazar, para que al momento de realizar la lectura, no modifique el sentido del mensaje a comunicar. Esta codificación no es tenida en cuenta como una variable en las tareas de procesamiento de lenguaje natural actuales, pero sí impactan directamente en el desempeño de los sistemas.
En el presente trabajo se demostró el impacto real de esta técnica en textos publicados en la red social twitter (tweets) que pudieran contener información indicativa de tendencias suicidas, utilizando específicamente el modelo pre-entrenado BERT como herramienta tecnológica en la predicción. El problema fue planteado con la siguiente premisa: entre más palabras o caracteres involucre la técnica de ofuscación, el desempeño del clasificador se verá proporcionalmente afectado de manera negativa. Utilizando el clasificador indicado y realizando la modificación sobre datos que el modelo no haya visto en la fase de entrenamiento, se realizaron ajustes en el contenido de los tuits de acuerdo con las fases experimentales definidas. Posteriormente, se presenta el diseño y el desarrollo de un componente que mediante el uso de modelos de lenguaje, que permitió realizar la transformación de los tuits en formato leet speaking a texto en claro, para obtener de este modo los datos sin ningún tipo de ofuscamiento. El resultado obtenido fue ingresado nuevamente al modelo de clasificación, para comprobar que los tuits fueron catalogados de manera correcta conforme a la etiqueta de tendencia asignada a cada uno de ellos. Como última parte del trabajo, se realizó el análisis de los datos obtenidos experimentalmente, concluyendo que, el modelo implementado es una solución viable al problema planteado. Finalmente, se realiza la propuesta de trabajo futuro con ciertas variables que no fueron contempladas en esta investigación, pero que permiten robustecer la solución y abarcar otro tipo de modificaciones en el contenido compartido por los usuarios de twitter y de otras redes sociales no incluidas.
ABSTRACT: Leet Speaking has been imposed as a simple information obfuscation technique, mainly among young people and adolescents on social networks. Its objective: camouflaging the meaning of the message to be transmitted. It is carried out through modifying some char- acters in the body of the text with others that have similar visual characteristics to the character being replaced. So, when the text is readed, it does not modify the meaning of the message to be communicated. This encoding is not taken into account as a variable in current natural language processing tasks, but it does have a direct impact on system performance. In this work, the real impact of this technique on the prediction of suicidal tendencies in tweets was demonstrated using specifically the BERT pre-trained model as a technological tool in the prediction. The problem is defined with the premise that if more words or characters are involved in the obfuscation technique, the performance of the classifier is negatively affected. Using the indicated classifier and making the modification on data that the model has not seen in the training phase, adjustments were made to the content of the tweets according to the defined experimental phases. Subsequently, the design and development of a component is presented that through the use of language models, which allowed the transformation of the tweets in leet format to plain text to obtain the data without any type of daze. The result obtained was entered into the classification model again, to verify that the tweets were classified correctly according to the trend label assigned to each of them. At last, the analysis of the data obtained experimentally was carried out, with which it is possible to conclude that the implemented model is a valid solution to the problem posed. Finally, the proposal for future work is made with certain variables that were not considered in this implementation, but that allow the solution to be strengthened and cover other types of modifications in the content shared by users of twitter and other social networks not contemplated.
Description:
Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2022, 1 archivo PDF, (96 páginas). tesis.ipn.mx