Abstract:
RESUMEN: En México, uno de los problemas prioritarios tecnológicos corresponde a la
preservación del contenido cultural intangible, es decir, en su forma digital. En esta
investigación, el principal interés es la generación de herramientas digitales para la
identificación y el manejo del patrimonio cultural intangible en imágenes.
En México, las obras arquitectónicas son consideradas parte del legado cultural
para las futuras generaciones y una fuente de inspiración para arquitectos,
diseñadores e ingenieros. Por lo tanto, los sistemas de reconocimiento automático
de contenido cultural son importantes en tareas de preservación, búsqueda y
diseminación. Sin embargo, estas tareas acarrean diferentes desafíos derivados
de errores en la asignación de metadatos, desorganización de la información,
almacenamiento en diferentes formatos y soportes, entre otros. Además, la propia
tarea de reconocimiento representa un desafío adicional en donde diferentes técnicas
de procesamiento pueden ser utilizadas y estas deben ser capaces de funcionar
cuando se presentan cambios de iluminación, oclusiones o cambios de perspectiva
en las escenas. En un esquema ideal, la información debe estar estandarizada
y contenida de forma que ésta proporcione patrones que permitan reconocer y
diferenciar nueva información para su uso. En el área de visión por computador, la integración de modelos de atención (basados en el sistema visual humano) se ha convertido en un área de intensa investigación, principalmente en tareas de reconocimiento y minado de contenido visual. Los denominados mapas de prominencias, se definen como mapas topográficos que representan la atención visual en una escena, modelando instantáneamente la atención, asignando un grado de interés a cada píxel de la imagen. Recientemente, los mapas de prominencias han probado ser una fuente
eficiente para distinguir regiones de interés en diferentes tareas de reconocimiento
de contenido visual. Adicionalmente, los modelos de aprendizaje automático, en el
área del aprendizaje profundo, han presentado resultados sobresalientes en tareas
de reconocimiento en bases de datos de alta escala. En este contexto, el interés
principal es integrar modelos de atención visual en el esquema de aprendizaje de las
redes neuronales profundas, específicamente para el reconocimiento de estructuras
arquitectónicas, como parte del contenido cultural intangible de México. Las principales contribuciones de esta investigación se derivan de: - la generación de bases de datos de propósito específico, - la selección automática de contenido para el entrenamiento de las redes neuronales, - la anotación de imágenes mediante un experimento psico-visual para le generación de mapas de prominencias y, - la integración de la atención visual en las redes de aprendizaje profundo en capas específicas y como mecanismos de atención visual. Durante el proceso de generación de la base de datos, se propone una lista de las
arquitecturas más representativas a lo largo del territorio Mexicano. Posteriormente,
mediante un esquema colaborativo se recuperaron las imágenes disponibles de
cada una de las arquitecturas. Aunque en la lista se consideran 372 estructuras
arquitectónicas, clasificadas en 3 estilos arquitectónicos, la base de datos final consta
de 8,155 imágenes en solo 142 categorías. Otra de las aportaciones importantes
en esta investigación, es la anotación semiautomática de un grupo de imágenes
utilizando un seguidor ocular, permitiendo generar mapas de atención visual
(mapas de prominencias) para un grupo relativamente pequeño de imágenes de la
base de datos (284 imágenes) y su propagación a imágenes similares mediante la
estimación de cambios de perspectiva entre ellas.
Con respecto a la integración de los modelos de atención en redes neuronales
profundas, se presentan dos vertientes. La primera vertiente, se integra una
capa personalizada de pooling que permite seleccionar características en función
de los mapas de prominencias suministrados con cada una de las imágenes de
entrenamiento. Al utilizar estas capas, es posible incrementar la precisión y
acelerar la convergencia de los modelos. Como segunda vertiente, se integran los
modelos de atención visual como mecanismos de atención visual basados en mapas
de prominencias en redes neuronales residuales y se compara el desempeño con
respecto a los mecanismos de atención presentes en la literatura. Finalmente, los
modelos equipados con capas y mecanismos de atención (equipados con modelos
de atención visual) presentan resultados sobresalientes en la tarea de reconocimiento
de contenido cultural. El documento se organiza como se describe a continuación. En el capítulo 2, se presentan los conceptos generales para el entendimiento de las redes neuronales artificiales y el sistema visual humano. Después, en el capítulo 3, se describe
la primera contribución, el proceso para la generación de la base de datos. En el capítulo 4, se introducen los experimentos para el entrenamiento utilizando los métodos de selección de contenido. Posteriormente, en el capítulo 5 y 6, se presenta la integración de los modelos de atención en la capa de pooling y los mecanismos de atención, respectivamente. Finalmente, en el capítulo 7, se concluye esta investigación y se resumen las principales contribuciones.
ABSTRACT: In Mexico, one of the priority technological problems is the preservation of cultural heritage in its digital form. In this research, the main interest is the ordering,
management and identification of intangible cultural heritage in images. In computer vision, the integration of the Human Visual System (HVS) into automatic learning methods and classifiers has become an intensive research field for object recognition and content mining. The so-called saliency maps, are defined as a topographic representation of visual attention on a scene, modeling attention instantaneously and assigning a degree of interest to each pixel value on the image. Saliency maps proved to be very efficient to point out regions of interest in several tasks of visual content and its understanding. In this context, we focus on the integration of visual attention models in the training pipeline of Deep Neural Networks (DNNs) for the recognition of Mexican architectural structures.
We consider the main contributions of this research are in the following areas of
interest:
• Specific purpose dataset: gathering data related to the topic is a key task to
solve the problem of architectural classification.
• Data selection: we use saliency prediction methods to select and crop
context-relevant regions on images.
• Visual attention modeling: we annotate images through a real task of image
observation, we record eye-fixations with an eye-tracker system to build
subjective saliency maps.
• Visual attention integration: we integrate visual attention in deep neural
networks in two ways; i) to filter out features in a saliency-based pooling layer
and ii) in attention mechanisms.
In this research, different essential components for the training of a neural
network are tackled down with the aim of recognizing Mexican cultural content and
extrapolating these findings to large-scale databases in similar classification tasks,
such as in ImageNet. Finally, we show that the integration of visual attention models
generated through a psycho-visual experiment allows to reduce training time and
improve performances in terms of accuracy.