HyperAIHyperAI
il y a 2 mois

Base de référence simple pour le réponse aux questions visuelles

Bolei Zhou; Yuandong Tian; Sainbayar Sukhbaatar; Arthur Szlam; Rob Fergus
Base de référence simple pour le réponse aux questions visuelles
Résumé

Nous décrivons une ligne de base très simple basée sur un sac de mots (bag-of-words) pour la réponse à des questions visuelles. Cette ligne de base concatène les caractéristiques lexicales issues de la question et les caractéristiques CNN issues de l'image afin de prédire la réponse. Lorsqu'elle est évaluée sur le jeu de données VQA [2], elle montre des performances comparables à celles de nombreuses approches récentes utilisant des réseaux neuronaux récurrents. Pour explorer les points forts et les faiblesses du modèle entraîné, nous fournissons également une démonstration interactive en ligne et du code source open-source.