Abstract:
RESUMEN: La información sobre actos delictivos es de gran importancia para la sociedad ya que permite identificar zonas de riesgo o con un alto índice delictivo, este tipo de conocimiento no sólo proporciona información relevante sobre la seguridad de su entorno a la población, sino que también puede servir como herramienta para determinar qué zonas de la ciudad necesitan mayor atención. El presente trabajo trata datos de diferentes fuentes de información como datos abiertos y redes sociales para crear un conjunto de datos que con ayuda de técnicas de PLN y modelado geoespacial se pueda clasificar un modelo de aprendizaje automático y realizan representaciones visuales de los casos reportados mediante mapas coropléticos y de calor para identificar las zonas más afectadas por la delincuencia. Los algoritmos de línea base utilizados fueron SVM y Random Forest con diferentes representaciones de características N-gramas y embeddings, fue SVM con el embedding USE Multilingüe que se logró el mejor resultado con un valor F1 de 0.78. Sin embargo, se también se propuse el uso de modelos de aprendizaje profundo transformer pre-entrenados basados en BERT, los cuales alcanzaron un mejor desempeño. BETO obtuvo un valor F1 de 0.86 superando así la línea base.
ABSTRACT: The information on criminal acts is of great importance to society as it allows to identify areas at risk or with a high crime rate, this type of knowledge not only provides relevant information about the safety of their environment to the population, but can also serve as a tool to determine which areas of the city need more attention. The present work treats data from different information sources such as open data and social networks to create a dataset that with the help of PLN techniques and geospatial modeling to classify a machine learning model and perform visual representations of the reported cases through choropleth and heat maps to identify the areas most affected by crime. The baseline algorithms were SVM and Random Forest with different feature representations N-grams and embeddings, it was SVM with embedding multilingual USE that achieved the best result with a F1-score of 0.78. However, we also proposed the use of pre-trained deep learning transformer models based on BERT, which achieved a better performance. BETO obtained an F1 value of 0.86, thus surpassing the baseline.
Description:
Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2022, 1 archivo PDF, (103 páginas). tesis.ipn.mx