Abstract:
RESUMEN:
La Minería de Datos muestra su utilidad de análisis en los fenómenos de interés para la humanidad, fenómenos que a hoy en día involucran variables de diferentes tipos: categóricas, numéricas, booleanas, geo-referencias, entre otras. Por lo anterior, los análisis que debe desarrollar la Minería de datos se vuelven más complejos, ya sea al solo realizar su descripción y después una posible predicción de hechos.
Un fenómeno de interés a analizar es la ocurrencia de delitos, fenómeno que tiene la característica indicada en el párrafo anterior, de involucrar diferentes tipos de variables, como la clasificación del delito, tiempo del hecho (día de semana, día, mes, año, hora), genero de los involucrados, localidad (en sus diferentes áreas de análisis y geo-referenciación), y otras variables más que se catalogan como confidenciales.
Las variables de primer nivel del fenómeno, podrían describirlo parcialmente, aún con la Visualización que involucre a todas ellas. Pero, para una descripción más completa, es necesario, coleccionar más datos de variables que podrían estar relacionadas con el fenómeno. En el caso de delitos, los datos a coleccionar y que podrían estar relacionados, son datos que identifiquen a objetos o sitios de interés, cercanos al lugar del delito y que podrían ser desde sitios de diversión, académicos, comerciales u otro que se puedan relacionar, además de estaciones del metro o paradas de autobús.
Para una descripción más completa, las técnicas de visualización ayudan, pero aquí surgen problemas de seleccionar las visualizaciones o diseñar las que ayuden a describir más el fenómeno.
En este proyecto se propone una plataforma de software para el análisis en su parte de descripción de fenómenos como el indicado. Este fenómeno es de interés para México, ya que cuenta con 10 ciudades en el Ranking de las 50 ciudades más peligrosas del mundo [1], utilizando los delitos de alto impacto de la Ciudad de México en el lapso de tiempo del 2013 al 2016. El análisis de descripción se realiza a diferentes niveles:
• El análisis geográfico en diferentes regiones de la ciudad (colonias, delegaciones, cuadrantes y no convencionales)
• El mapeo de información geo-referenciada de delitos con otros puntos de interés
• Así como funcionalidades que puedan aportar a un análisis temporal.
Para las funcionalidades se destacan como aportaciones, varios algoritmos propios como
• El que localiza las rutas entre dos diferentes puntos
• Y el que califica a las regiones en diferentes niveles de peligrosidad
• Además de las estructuras de almacenamiento que permiten responder las funcionalidades desarrolladas (Base de datos con información delictiva, BD de polígonos de las regiones de análisis y de puntos de interés, cubos de datos y matrices de adyacencia).
Funcionalidades que, a través de diversas presentaciones con CONACYT, SSP-CDMX, CNS, IPN, Empresariales y medios de información se han considerado útiles e innovadoras.
ABSTRACT:
Data Mining shows its usefulness in analyzing phenomena of interest to humanity, phenomena which involve variables of different types such as: categorical, numerical, boolean, geo-referenced, among others. Consequently, the analyzes that must be developed by the data mining becomes more complex, only describing the phenomenon and then a possible prediction of facts.
A phenomenon of interest to analyze is the occurrence of crimes, that has the indicated characteristics in the previous paragraph, of involving different types of variables, such as the classification of the crime, the time of the event (weekday, day, month, hour), Gender of the people involved, locality (in different areas of analysis and geo-referencing), and other variables that are classified as confidential.
The first-level variables of the phenomenon, could describe it partially, even with the visualization that involves all of them. However, for a more complete description, it is necessary to collect more data on variables that could be related to the phenomenon. In the case of crimes, data to concentrate is information related which are identified as sites of interest, nearby crime locations as fun sites, academic, commercial and other, and also subway stations and bus stops.
To have a more complete description, visualization techniques assist, but the problems arise at choosing the visualizations or how to design them in order to describe the phenomenon.
In this project, a software platform is proposed for the analysis in part of the description of phenomena. This phenomenon is one of interest to Mexico, since it has 10 cities in the Ranking of the 50 most dangerous in the world [1], by using the high impact crimes of Mexico City between 2013 and 2016. The analysis of the description is performed at different levels:
• The geographic analysis in different regions of the city (colonies, delegations, quadrants and non-conventional areas).
• The mapping of geo-referenced information of crimes with other points of interest.
• As well as functionalities that have a temporal analysis.
For the functionalities which emphasize as contributions of this project, are algorithms such as
• The algorithm that locates the routes between two different points.
• And that qualifies the regions in different levels of danger.
• In addition to the storage structures that allow to respond to the functionalities developed (Database with criminal information, Database of polygons of the regions of analysis and points of interest, data cubes and adjacency matrices).
Functionalities that, through various presentations with CONACYT, SSP-CDMX, CNS, IPN, business and media companies have been considered them useful and innovative.