DSpace Repository

Clasificación textual de información personal sensible

Show simple item record

dc.contributor.author De Jesús Sánchez, Sara
dc.date.accessioned 2023-05-25T21:32:03Z
dc.date.available 2023-05-25T21:32:03Z
dc.date.created 2022-12-16
dc.date.issued 2023-05-19
dc.identifier.citation De Jesús Sánchez, Sara. (2022). Clasificación textual de información personal sensible. (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México. es
dc.identifier.uri http://tesis.ipn.mx/handle/123456789/31641
dc.description Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2022, 1 archivo PDF, (55 páginas). tesis.ipn.mx es
dc.description.abstract RESUMEN: En esta tesis se muestra el desarrollo de ICIS, un modelo que utiliza técnicas de procesamiento de lenguaje natural y aprendizaje automático para identificar y clasificar la información personal sensible presente en textos, lo que permitirá prevenir su exposición en los medios públicos de las organizaciones gubernamentales. Se propone una taxonomía con 55 tipos datos personales, agrupados en 10 categorías. A partir de esta taxonomía se identifican los datos personales en los documentos, utilizando técnicas de procesamiento de lenguaje natural. La identificación considera el contexto, no sólo el formato o las palabras asociadas, sino que los datos personales estén relacionados con un titular, que se refieran a alguien en un mismo segmento de texto. El modelo identifica, en paralelo, los datos personales en cada segmento de texto y forma vectores con los que se hace la clasificación de información sensible. Se propone una definición de la Información Personal Sensible en términos computacionales, con base en cuatro clasificaciones de los tipos de datos personales: clasificación de datos sensibles unitarios o C_DSU, clasificación de datos sensibles no unitarios o C_DSNU, clasificación de datos personales identificadores o C_DPI y clasificación de datos personales o C_DP. Utilizando algoritmos de aprendizaje automático, el modelo hace las cuatro clasificaciones a los vectores de los segmentos de texto y, con estos resultados, genera un nuevo vector con el que hace la clasificación de información sensible o C_IS. Este modelo forma parte del proyecto PICIS, Plataforma de Identificación, Clasificación y Monitoreo de Información sensible, que es uno de los ganadores del Fondo de Innovación en Ciberseguridad de Latinoamérica en 2021, patrocinado por la OEA, Cisco y la Fundación Citi. El proyecto PICIS es desarrollado por el Laboratorio de Ciberseguridad del CIC, IPN. PICIS representa un control de seguridad enfocado a prevenir la exposición de información sensible en documentos, en los medios públicos del gobierno federal de México. ABSTRACT: This thesis shows the development of ICIS, a model that uses natural language processing and machine learning techniques to identify and classify sensitive personal information present in texts, to prevent its exposure in the public media of government organizations. A taxonomy is proposed, it’s made up of 55 personal data types grouped by 10 categories. The personal data in the documents is identified using natural language processing techniques. The identification considers the context, not only the format or the associated words, but that personal data is related to a holder, that it refers to someone in a text segment. The model identifies the personal data in each text segment in parallel and builds vectors, the sensitive information classification is made with them. A Sensitive Personal Information definition is proposed, in computational terms, based on the personal data type classifications: unit sensitive data classification or C_DSU, non-unit sensitive data classification or C_DSNU, identifier personal data classification or C_DPI, and personal data classification or C_DP. Using machine learning algorithms, the model makes the four classifications; with these results a new vector is built and sensitive information classification or C_IS is made. This model is part of the PICIS project, Platform for the Identification, Classification and Monitoring of Sensitive Information, which is a winner of the Latin American Cybersecurity Innovation Fund in 2021, sponsored by the OAS, Cisco, and the Citi Foundation. PICIS project is developed by the Cybersecurity Laboratory at CIC, IPN. PICIS represents a security control focused on preventing the sensitive information exposure in documents, in the public media of the federal government of Mexico. es
dc.description.sponsorship CONACyT es
dc.language.iso es es
dc.subject Aprendizaje automático es
dc.subject Ciberseguridad es
dc.subject Clasificación automática es
dc.subject Machine learning es
dc.subject Cybersecurity es
dc.subject Automatic classification es
dc.title Clasificación textual de información personal sensible es
dc.contributor.advisor Aguirre Anaya, Eleazar
dc.contributor.advisor Calvo Castro, Francisco Hiram
dc.programa.academico Maestría en Ciencias de la Computación es


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account