Please use this identifier to cite or link to this item: http://tesis.ipn.mx/handle/123456789/22004
Title: An unconventional model based data streaming processing
Authors: Uriarte Arcia, Abril Valeria
Yáñez Márquez, Cornelio
López Yáñez, Itzamá
Issue Date: 4-May-2017
Publisher: Uriarte Arcia, Abril Valeria
Citation: Uriarte Arcia, Abril Valeria. An unconventional model based data streaming processing. Tesis (Doctorado en Ciencias de la Computación). Ciudad de México, Instituto Politécnico Nacional, Sección de Estudios de Posgrado e Investigación, Centro de Investigación en Computación. 2016. 94 p.
Abstract: Esta tesis está dedicada al diseño de una metodología novedosa para la tarea de clasificación de patrones sobre un flujo continuo de datos, basada en un clasificador asociativo. Hoy en día vivimos en una sociedad de la información, donde grandes cantidad de datos son generados por diversas áreas del conocimiento. La necesidad de extraer información útil de este flujo masivo de datos de una manera eficiente, abre una gran oportunidad para proponer nuevos métodos que permitan modelar y predecir el comportamiento de dichos datos. En un data stream, los datos llegan de forma continua y a una gran velocidad; por tanto los algoritmos desarrollados para tratar este tipo de flujo, a diferencia de los algoritmos tradicionales, deben respetar ciertas restricciones como son: trabajar con una cantidad limitada de tiempo, utilizar poca memoria y los datos deben ser examinados una sola vez. También es importante que dichos algoritmos sean capaces de detectar cambios en la distribución que genera los datos (concept drift), conceptos recurrentes y surgimientos de nuevas clases. Con el fin de abordar los aspectos antes mencionados, una nueva metodología basada en el clasificador Gamma se presenta en este trabajo de tesis. Este es un clasificador basado en instancias, cuya principal ventaja para trabajar con data streams es su fácil adaptación que puede lograrse mediante la simple adición o extracción de ejemplos del conjunto de aprendizaje sin tener que hacer costosas adaptaciones al modelo. La metodología propuesta combina el clasificador Gamma con un enfoque de ventana deslizante. Tres diferentes métodos para la actualización de la ventana deslizantes fueron utilizados en este trabajo: ventana deslizante de tamaño fijo, actualización por control estadístico y actualización por similitud del operador Gamma, siendo este último método una propuesta original de este trabajo de tesis. Este método utiliza el operador γ de similitud para calcular el grado de semejanza entre los patrones de la ventana, y con base en este grado de semejanza, se seleccionan los elementos a ser eliminados de la ventana. Para un análisis más exhaustivo de la metodología, además de las pruebas realizadas con bancos de datos reales, se realizaron pruebas con bancos de datos sintéticos. Los resultados mostraron que la metodología exhibe resultados competitivos al ser comparada con otros algoritmos comúnmente utilizados para la clasificación de patrones sobre data streams. También se realizó un estudio comparativo de los tres métodos para actualizar la ventana deslizante, mostrando que el enfoque de actualización usando el operador Gamma de similitud mostraba mejores resultados que los otros.
URI: http://tesis.ipn.mx/handle/123456789/22004
Appears in Collections:1. Tesis

Files in This Item:
File Description SizeFormat 
XD 16.14.pdf2.68 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.