il y a 2 mois

TGIF-QA : Vers une raisonnement spatio-temporel dans le domaine de la réponse aux questions visuelles

Yunseok Jang; Yale Song; Youngjae Yu; Youngjin Kim; Gunhee Kim

Résumé

La compréhension visuelle et linguistique est devenue un sujet d'étude intensif dans le domaine de l'Intelligence Artificielle. Parmi les nombreuses tâches liées à cette recherche, la réponse automatique aux questions visuelles (Visual Question Answering, VQA) s'est avérée être l'une des plus réussies, visant à apprendre un modèle capable de comprendre le contenu visuel au niveau des détails régionaux et d'établir ses associations avec des paires de questions et de réponses formulées en langage naturel. Malgré les progrès rapides réalisés ces dernières années, la plupart des travaux existants en VQA se sont principalement concentrés sur les images. Dans cet article, nous nous intéressons à l'extension du VQA au domaine vidéo et contribuons à la littérature de trois manières importantes. Premièrement, nous proposons trois nouvelles tâches spécifiquement conçues pour le VQA vidéo, qui nécessitent une raisonnement spatio-temporel pour répondre correctement aux questions. Deuxièmement, nous présentons un nouveau jeu de données à grande échelle pour le VQA vidéo nommé TGIF-QA, qui étend les travaux existants en VQA avec nos nouvelles tâches. Enfin, nous proposons une approche basée sur deux LSTM (Long Short-Term Memory) avec une attention spatiale et temporelle, et démontrons son efficacité par rapport aux techniques conventionnelles de VQA grâce à des évaluations empiriques.