Raisonnement visuel sur le sens commun
Le Visual Commonsense Reasoning (VCR) est une tâche axée sur le raisonnement multimodal impliquant des images et du texte. Elle vise à faire des inférences raisonnables en analysant le contenu des images et leurs informations contextuelles. Cette tâche nécessite non seulement que le modèle dispose de capacités de reconnaissance visuelle de base, mais aussi qu'il comprenne les relations entre les objets dans la scène et le sens commun humain, afin de prendre des décisions logiques. La valeur d'application du VCR réside dans l'amélioration du niveau cognitif des machines dans des scénarios complexes, l'optimisation de l'interaction homme-machine en termes de naturel et d'intelligence, ainsi que la promotion du développement des technologies d'apprentissage multimodal.