dc.contributor.author |
Ramírez Ramírez, Hugo Alberto |
|
dc.date.accessioned |
2019-03-06T18:10:40Z |
|
dc.date.available |
2019-03-06T18:10:40Z |
|
dc.date.created |
2018-11-27 |
|
dc.date.issued |
2019-03-05 |
|
dc.identifier.citation |
Ramírez Ramírez, Hugo Alberto. (2018). Compresión de datos para Big Data. (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México. |
es |
dc.identifier.uri |
http://tesis.ipn.mx/handle/123456789/26737 |
|
dc.description |
Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2018, 1 archivo PDF, (49 páginas). tesis.ipn.mx |
es |
dc.description.abstract |
RESUMEN:
Una gran variedad de fenómenos de interés genera una gran cantidad de datos (Big Data), la cual por su volumen es difícil de analizar con herramientas de aprendizaje máquina convencionales. Existen diversas alternativas para solucionar este problema, la más directa es paralelizar los algoritmos de aprendizaje máquina, otra, la cual se investigará en esta tesis, es la de comprimir los datos de manera tal que el tiempo de ejecución de diferentes algoritmos sea práctico sin perjudicar la calidad de los modelos producidos.
Las máquinas de vectores de soporte (SVM) son modelos de clasificación donde se busca el hiperplano que maximice el margen entre los puntos de las clases, si los datos no son separables se introducen variables de holgura que permiten violar el margen de clasificación. Se ha demostrado que son modelos que generalizan mejor que otros algoritmos de aprendizaje máquina. Sin embargo, las SVMs tienen la desventaja de no ser apropiadas para conjuntos de datos grandes.
En esta tesis se propone un método de reducción de datos que permita usar SVM para conjuntos de datos grandes. El método en cuestión usa un algoritmo de aprendizaje no supervisado: mezcla de gaussianos (GM) para reducir el tamaño de los datos y para extraer las variables latentes u ocultas y usarlas como una medida de intensidad en el factor de holgura del clasificador.
ABSTRACT:
A wide variety of phenomenon of interest generate a large amount of data (Big Data), which due to its volume is difficult to analyze with conventional machine learning tools. There are several alternatives to solve this problem, the most direct is to parallel the machine learning algorithms, another, which it will investigated, is to compress the data in such a way that the execution time of different algorithms is practical without affecting the quality of the models produced.
Support vector machines (SVM) are classification models that look for the hyperplane that maximizes the margin between the points of the classes, if the data are not separable, slack variables are introduced that allow violating the classification margin. It has been shown that they are models that generalize better than other machine learning algorithms. However, SVMs have the disadvantage of not being appropriate for large data sets.
This thesis proposes a data reduction method that allows the use of SVM for large data sets. The method in question uses an unsupervised learning algorithm: mixing Gaussians (GM) to reduce the size of the data and to extract the latent or hidden variables and use them as a measure of intensity in the slack factor of the classifier |
es |
dc.language.iso |
es |
es |
dc.subject |
Aprendizaje automático |
es |
dc.subject |
Inteligencia artificial |
es |
dc.subject |
Big data |
es |
dc.title |
Compresión de datos para Big Data |
es |
dc.contributor.advisor |
Menchaca Méndez, Ricardo |
|
dc.contributor.advisor |
Menchaca Méndez, Rolando |
|