il y a 2 mois
Base de référence simple pour le réponse aux questions visuelles
Bolei Zhou; Yuandong Tian; Sainbayar Sukhbaatar; Arthur Szlam; Rob Fergus

Résumé
Nous décrivons une ligne de base très simple basée sur un sac de mots (bag-of-words) pour la réponse à des questions visuelles. Cette ligne de base concatène les caractéristiques lexicales issues de la question et les caractéristiques CNN issues de l'image afin de prédire la réponse. Lorsqu'elle est évaluée sur le jeu de données VQA [2], elle montre des performances comparables à celles de nombreuses approches récentes utilisant des réseaux neuronaux récurrents. Pour explorer les points forts et les faiblesses du modèle entraîné, nous fournissons également une démonstration interactive en ligne et du code source open-source.