Abstract:
RESUMEN: La inclusión a las actividades de la vida cotidiana de personas con discapacidad
visual es un área de investigación activa y retadora. Este trabajo trata sobre la tarea
de brindar información en español del entorno a las personas en forma de descripciones
verbales usando dispositivos electrónicos, como los teléfonos celulares. Usamos una
red neuronal (DenseCap) tanto para identificar objetos como para generar frases sobre
ésos objetos. El arreglo usado se denomina arquitectura codificador-decodificador que
incluye una Red Neuronal Convolucional (RNC) como el codificador de la imagen
y una Red Neuronal Recurrente (RNR) como un decodificador para generar frases
sobre la información de la imagen y las palabras ya enunciadas. Esta red neuronal se
ubica en un servidor web para describir una imagen que se envía desde una aplicación
en un teléfono inteligente, y su salida es un texto que es verbalizado por el teléfono
inteligente. Nuestra implementación alcanza una Precisión Promedio Media (mPP)
de 3.93, relacionada con el reconocimiento de objetos y la calidad del subtítulo. Con
éste sistema una persona con discapacidad visual puede obtener cierta información
de objetos específicos en su entorno para imaginar dónde están, que pueden hacer y
cuáles son las amenazas a su alrededor. ABSTRACT: The inclusion of visually impaired people to daily life is a challenging and active
area of research. This work studies how to bring information in spanish from
surroundings to people delivered as verbal descriptions using wearables devices like
smartphones. We use a neural network (DenseCap) for both identify objects and
generates phrases about those objects. The schema used is the encoder-decoder architecture
that includes a Convolutional Neural Network (CNN) as the encoder from
an image and a Recurrent Neural Network (RNN) as decoder to generates phrases
about the image information and the words stated. This neural network is located in
a webserver to describes an image that feeds in from an smartphone app, and their
output is a text wich is verbalized in the smartphone. Our implementation achieves
a Mean Average Precision (mAP) of 3.93 related to object recognition and quality of
captions. With this system a visually impaired people can get some information of
specific objects in the surroundings to imagine where they are, what can to do and
what are the threatens around them.
Description:
Tesis (Maestría en Tecnología Avanzada), Instituto Politécnico Nacional, CICATA, Unidad Querétaro, 2017, 1 archivo PDF, (92 páginas). tesis. ipn.mx