Abstract:
La detección automática de emociones en texto es un área relativamente nueva que actualmente se ha vuelto muy popular, debido a sus numerosas aplicaciones prácticas, por ejemplo, una empresa puede evaluar la calidad de sus productos y servicios analizando las redes sociales, etc. La detección automática de emociones en texto tiene varios aspectos: detección de categorías emocionales (alegría, tristeza, miedo, enojo, etc.), determinación de polaridad (positivo y negativo); o detección de sentido del humor, ironía y sarcasmo. En este trabajo nos centramos en las categorías emocionales. El objetivo primario de este trabajo es la detección automática de categorías emocionales en texto para español, tal como lo hacen las personas. Dado que estamos trabajando para el idioma español, dónde hay muy pocos recursos léxicos, el primer paso fue proponer una metodología para la construcción de estos recursos, y aplicarla en la creación de un diccionario y un corpus de textos en español etiquetados con emociones. Dado que cientos de evaluadores participaron en la evaluación de afectividad sobre las palabras del diccionario y las oraciones de los textos, los datos de las valoraciones fueron analizados con métodos de concordancia que hemos creado y adaptado específicamente para esta tarea, después del análisis se trabajó solo con las estimaciones de los evaluadores más afines. Para el diccionario, adaptamos el método de kappa con ponderación, para su aplicación sobre múltiples evaluadores. Para el corpus, hemos propuesto una nueva métrica llamada kappa Díaz-Sidorov (kappa DS) que es aplicada en casos de evaluaciones de múltiples categorías no mutuamente excluyentes. El diccionario contiene 2,036 palabras y ha sido nombrado Lexicón Emocional para Español (LES). En él cada palabra tiene un peso (porcentaje) que corresponde a la probabilidad de usar la palabra en un sentido afectivo, llamado FPA (Factor de Probabilidad de uso Afectivo), calculado con los datos de los evaluadores más afines. El corpus contiene 491 oraciones con evaluaciones de su categoría afectiva calculados quitando las evaluaciones no concordantes según la kappa DS. Lo hemos llamado Corpus de Emociones en Español (CEE). Por último, hemos aplicado diversos algoritmos de clasificación (Naive Bayes, Máquinas de Soporte Vectorial, Clasificación Vía Regresión y JRip) sobre el corpus CEE, usando la técnica de validación cruzada con 10 iteraciones y utilizando las palabras como características. Los resultados muestran que la clasificación es posible y da mejores resultados que la línea base: selección de categorías emocionales al azar. Diversas estrategias de asignación de etiquetas de categorías emocionales fueron consideradas para la clasificación, se propone cual es la mejor.