Abstract:
Las publicaciones en los medios de información y los medios sociales son una forma de ver el interés de los publicadores y por lo tanto su contenido y es posible que a partir de ellas generar modelos del interés de las publicaciones. Estos medios también se destacan por la rapidez en que las publicaciones se llevan a cabo y que se relacionan con tópicos de interés y que podrían ser una medida de la importancia de los tópicos, los cuales podrían ser parte del modelo.
Las características de las publicaciones ya sean noticias o tweets, pueden variar en cuanto a los tópicos de interés que aparecen y desaparecen, así como el número de ellos y el número de publicaciones, dependiendo del rango de tiempo coleccionado (día, semana, quincena y mes entre otros). Dado que puede haber tópicos que no se conocen, que dependen del número de las publicaciones y del rango del tiempo, para identificarlos se requiere de un algoritmo de clasificación no supervisado.
Detectar los tópicos más importantes en medios sociales es de utilidad dado que de manera casi inmediata se puede conocer el surgimiento de problemáticas en diferentes campos de la ciencia, tecnología, dispersión de enfermedades o algún problema existente en el país. El conocimiento de estos tópicos puede ayudar a evitar seguir utilizando tecnología con problemas, productos que pueden ser nocivos al ser humano, realizar o evitar actividades que puedan afectar la economía de un país, entre otros.
En este trabajo se da una propuesta de solución de detectar los tópicos más importantes e informar de su permanencia en el tiempo, para lo cual se utiliza una versión ya implementada del algoritmo no supervisado llamado Latent Dirichlet Allocation (LDA), que con modificaciones permite identificar un número determinado de tópicos a partir de un rango de días o un período de tiempo en una colección de publicaciones preparadas con el Procesamiento de Lenguaje Natural.
Las colecciones de publicaciones se obtienen de suscripciones RSS de secciones de periódicos, así como de tweets que son publicados por periodistas destacados por su índice de seguidores o número de publicaciones, información que es almacenada en bases de datos, pero antes es tratada con procesos del área de Minería de Datos (extracción, transformación y carga).
En el trabajo se define el concepto de tópico más importante, basado en el mayor número de apariciones de un tópico en diferentes noticias de la colección. También se da una definición de similitud entre tópicos de diferentes períodos que ayuda a revisar su aparición de un tópico a lo largo de varios períodos de tiempo. Definiciones útiles para identificar y dar a conocer los tópicos a los usuarios que acceden a estos medios y dar un seguimiento de ellos, si son de su interés.
También se construye un prototipo de software que utiliza las anteriores definiciones, el cual incluye una interfaz de usuario para alimentar los parámetros de entrada como: número de periodos, número de tópicos, tipo de noticia, fecha y tipo de periodo. Parámetros que usa el modelo LDA y que genera un numero de tópicos requeridos para cada uno de varios periodos deseados a analizar con una duración determinada días y que tengan una similitud s en el rango [0, S] con s < 1.
El prototipo, bajo el concepto de visualización, permite observar la relación entre los tópicos que son: el número de palabras que coinciden en dos tópicos, cuales palabras y la posición de ellas en dos tópicos y un valor asignado de similitud. Lo que origina la similitud entre los tópicos de diferentes periodos y medir en cuántos periodos se mantiene la importancia de un tópico. Así también se desarrolla una nube de palabras que ayuda a determinar la importancia de un tópico mediante las palabras con mayor tamaño y la visualización de similitud con respecto a palabras que existan en tópicos de diferentes periodos