Descripción Verbal de Escenas a partir de Imágenes y su Aplicación para Discapacitados Visuales

Gómez Garay, Alejandro

DSpace Home
→
3.- Unidades Académicas de Nivel Posgrado
→
Centros de Investigación y Posgrado
→
CICATA Querétaro
→
1. Tesis
→
View Item

Descripción Verbal de Escenas a partir de Imágenes y su Aplicación para Discapacitados Visuales

Gómez Garay, Alejandro

URI: http://tesis.ipn.mx/handle/123456789/24291

Date: 2018-03-14

Abstract:

RESUMEN: La inclusión a las actividades de la vida cotidiana de personas con discapacidad visual es un área de investigación activa y retadora. Este trabajo trata sobre la tarea de brindar información en español del entorno a las personas en forma de descripciones verbales usando dispositivos electrónicos, como los teléfonos celulares. Usamos una red neuronal (DenseCap) tanto para identificar objetos como para generar frases sobre ésos objetos. El arreglo usado se denomina arquitectura codificador-decodificador que incluye una Red Neuronal Convolucional (RNC) como el codificador de la imagen y una Red Neuronal Recurrente (RNR) como un decodificador para generar frases sobre la información de la imagen y las palabras ya enunciadas. Esta red neuronal se ubica en un servidor web para describir una imagen que se envía desde una aplicación en un teléfono inteligente, y su salida es un texto que es verbalizado por el teléfono inteligente. Nuestra implementación alcanza una Precisión Promedio Media (mPP) de 3.93, relacionada con el reconocimiento de objetos y la calidad del subtítulo. Con éste sistema una persona con discapacidad visual puede obtener cierta información de objetos específicos en su entorno para imaginar dónde están, que pueden hacer y cuáles son las amenazas a su alrededor. ABSTRACT: The inclusion of visually impaired people to daily life is a challenging and active area of research. This work studies how to bring information in spanish from surroundings to people delivered as verbal descriptions using wearables devices like smartphones. We use a neural network (DenseCap) for both identify objects and generates phrases about those objects. The schema used is the encoder-decoder architecture that includes a Convolutional Neural Network (CNN) as the encoder from an image and a Recurrent Neural Network (RNN) as decoder to generates phrases about the image information and the words stated. This neural network is located in a webserver to describes an image that feeds in from an smartphone app, and their output is a text wich is verbalized in the smartphone. Our implementation achieves a Mean Average Precision (mAP) of 3.93 related to object recognition and quality of captions. With this system a visually impaired people can get some information of specific objects in the surroundings to imagine where they are, what can to do and what are the threatens around them.