Clasificación textual de información personal sensible

De Jesús Sánchez, Sara

DSpace Home
→
3.- Unidades Académicas de Nivel Posgrado
→
Centros de Investigación y Posgrado
→
CIC
→
1. Tesis
→
View Item

dc.contributor.author	De Jesús Sánchez, Sara
dc.date.accessioned	2023-05-25T21:32:03Z
dc.date.available	2023-05-25T21:32:03Z
dc.date.created	2022-12-16
dc.date.issued	2023-05-19
dc.identifier.citation	De Jesús Sánchez, Sara. (2022). Clasificación textual de información personal sensible. (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.	es
dc.identifier.uri	http://tesis.ipn.mx/handle/123456789/31641
dc.description	Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2022, 1 archivo PDF, (55 páginas). tesis.ipn.mx	es
dc.description.abstract	RESUMEN: En esta tesis se muestra el desarrollo de ICIS, un modelo que utiliza técnicas de procesamiento de lenguaje natural y aprendizaje automático para identificar y clasificar la información personal sensible presente en textos, lo que permitirá prevenir su exposición en los medios públicos de las organizaciones gubernamentales. Se propone una taxonomía con 55 tipos datos personales, agrupados en 10 categorías. A partir de esta taxonomía se identifican los datos personales en los documentos, utilizando técnicas de procesamiento de lenguaje natural. La identificación considera el contexto, no sólo el formato o las palabras asociadas, sino que los datos personales estén relacionados con un titular, que se refieran a alguien en un mismo segmento de texto. El modelo identifica, en paralelo, los datos personales en cada segmento de texto y forma vectores con los que se hace la clasificación de información sensible. Se propone una definición de la Información Personal Sensible en términos computacionales, con base en cuatro clasificaciones de los tipos de datos personales: clasificación de datos sensibles unitarios o C_DSU, clasificación de datos sensibles no unitarios o C_DSNU, clasificación de datos personales identificadores o C_DPI y clasificación de datos personales o C_DP. Utilizando algoritmos de aprendizaje automático, el modelo hace las cuatro clasificaciones a los vectores de los segmentos de texto y, con estos resultados, genera un nuevo vector con el que hace la clasificación de información sensible o C_IS. Este modelo forma parte del proyecto PICIS, Plataforma de Identificación, Clasificación y Monitoreo de Información sensible, que es uno de los ganadores del Fondo de Innovación en Ciberseguridad de Latinoamérica en 2021, patrocinado por la OEA, Cisco y la Fundación Citi. El proyecto PICIS es desarrollado por el Laboratorio de Ciberseguridad del CIC, IPN. PICIS representa un control de seguridad enfocado a prevenir la exposición de información sensible en documentos, en los medios públicos del gobierno federal de México. ABSTRACT: This thesis shows the development of ICIS, a model that uses natural language processing and machine learning techniques to identify and classify sensitive personal information present in texts, to prevent its exposure in the public media of government organizations. A taxonomy is proposed, it’s made up of 55 personal data types grouped by 10 categories. The personal data in the documents is identified using natural language processing techniques. The identification considers the context, not only the format or the associated words, but that personal data is related to a holder, that it refers to someone in a text segment. The model identifies the personal data in each text segment in parallel and builds vectors, the sensitive information classification is made with them. A Sensitive Personal Information definition is proposed, in computational terms, based on the personal data type classifications: unit sensitive data classification or C_DSU, non-unit sensitive data classification or C_DSNU, identifier personal data classification or C_DPI, and personal data classification or C_DP. Using machine learning algorithms, the model makes the four classifications; with these results a new vector is built and sensitive information classification or C_IS is made. This model is part of the PICIS project, Platform for the Identification, Classification and Monitoring of Sensitive Information, which is a winner of the Latin American Cybersecurity Innovation Fund in 2021, sponsored by the OAS, Cisco, and the Citi Foundation. PICIS project is developed by the Cybersecurity Laboratory at CIC, IPN. PICIS represents a security control focused on preventing the sensitive information exposure in documents, in the public media of the federal government of Mexico.	es
dc.description.sponsorship	CONACyT	es
dc.language.iso	es	es
dc.subject	Aprendizaje automático	es
dc.subject	Ciberseguridad	es
dc.subject	Clasificación automática	es
dc.subject	Machine learning	es
dc.subject	Cybersecurity	es
dc.subject	Automatic classification	es
dc.title	Clasificación textual de información personal sensible	es
dc.contributor.advisor	Aguirre Anaya, Eleazar
dc.contributor.advisor	Calvo Castro, Francisco Hiram
dc.programa.academico	Maestría en Ciencias de la Computación	es