DSpace Repository

Compresión de datos para Big Data

Show simple item record

dc.contributor.author Ramírez Ramírez, Hugo Alberto
dc.date.accessioned 2019-03-06T18:10:40Z
dc.date.available 2019-03-06T18:10:40Z
dc.date.created 2018-11-27
dc.date.issued 2019-03-05
dc.identifier.citation Ramírez Ramírez, Hugo Alberto. (2018). Compresión de datos para Big Data. (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México. es
dc.identifier.uri http://tesis.ipn.mx/handle/123456789/26737
dc.description Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2018, 1 archivo PDF, (49 páginas). tesis.ipn.mx es
dc.description.abstract RESUMEN: Una gran variedad de fenómenos de interés genera una gran cantidad de datos (Big Data), la cual por su volumen es difícil de analizar con herramientas de aprendizaje máquina convencionales. Existen diversas alternativas para solucionar este problema, la más directa es paralelizar los algoritmos de aprendizaje máquina, otra, la cual se investigará en esta tesis, es la de comprimir los datos de manera tal que el tiempo de ejecución de diferentes algoritmos sea práctico sin perjudicar la calidad de los modelos producidos. Las máquinas de vectores de soporte (SVM) son modelos de clasificación donde se busca el hiperplano que maximice el margen entre los puntos de las clases, si los datos no son separables se introducen variables de holgura que permiten violar el margen de clasificación. Se ha demostrado que son modelos que generalizan mejor que otros algoritmos de aprendizaje máquina. Sin embargo, las SVMs tienen la desventaja de no ser apropiadas para conjuntos de datos grandes. En esta tesis se propone un método de reducción de datos que permita usar SVM para conjuntos de datos grandes. El método en cuestión usa un algoritmo de aprendizaje no supervisado: mezcla de gaussianos (GM) para reducir el tamaño de los datos y para extraer las variables latentes u ocultas y usarlas como una medida de intensidad en el factor de holgura del clasificador. ABSTRACT: A wide variety of phenomenon of interest generate a large amount of data (Big Data), which due to its volume is difficult to analyze with conventional machine learning tools. There are several alternatives to solve this problem, the most direct is to parallel the machine learning algorithms, another, which it will investigated, is to compress the data in such a way that the execution time of different algorithms is practical without affecting the quality of the models produced. Support vector machines (SVM) are classification models that look for the hyperplane that maximizes the margin between the points of the classes, if the data are not separable, slack variables are introduced that allow violating the classification margin. It has been shown that they are models that generalize better than other machine learning algorithms. However, SVMs have the disadvantage of not being appropriate for large data sets. This thesis proposes a data reduction method that allows the use of SVM for large data sets. The method in question uses an unsupervised learning algorithm: mixing Gaussians (GM) to reduce the size of the data and to extract the latent or hidden variables and use them as a measure of intensity in the slack factor of the classifier es
dc.language.iso es es
dc.subject Aprendizaje automático es
dc.subject Inteligencia artificial es
dc.subject Big data es
dc.title Compresión de datos para Big Data es
dc.contributor.advisor Menchaca Méndez, Ricardo
dc.contributor.advisor Menchaca Méndez, Rolando


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account