MoVie : Repenser les convolutions modulées pour le dénombrement visuel et au-delà

Ce papier se concentre sur le dénombrement visuel, une tâche visant à prédire le nombre d'occurrences d'un objet donné une image naturelle et une requête (par exemple, une question ou une catégorie). Contrairement à la plupart des travaux antérieurs qui reposent sur des modèles explicites et symboliques, souvent coûteux en termes de calcul et limités en généralisation, nous proposons une alternative simple et efficace en revisitant les convolutions modulées, qui permettent de fusionner localement la requête et l’image. Inspirés de la conception des blocs résiduels à goulot, nous appelons notre méthode MoVie, sigle de Modulated conVolutional bottlenecks. Notamment, MoVie reasonne de manière implicite et holistique, et nécessite uniquement un passage avant unique lors de l’inférence. Malgré sa simplicité, MoVie démontre des performances remarquables en dénombrement : 1) elle améliore l’état de l’art sur des tâches de VQA spécifiquement dédiées au dénombrement tout en étant plus efficace ; 2) elle surpasse les méthodes les plus avancées sur des benchmarks exigeants tels que COCO pour le dénombrement d’objets courants ; 3) elle nous a permis d’obtenir la première place du défi VQA 2020 lorsqu’elle a été intégrée comme module traitant les questions liées au « nombre » dans des modèles VQA génériques. Enfin, nous fournissons des preuves que des convolutions modulées telles que MoVie peuvent servir de mécanisme général pour des tâches de raisonnement au-delà du dénombrement.