Bongard-HOI : Une évaluation du raisonnement visuel à faibles exemples pour les interactions homme-objet

Un écart important subsiste entre les modèles actuels de reconnaissance de motifs visuels et la cognition visuelle humaine, notamment en ce qui concerne l'apprentissage peu supervisé (few-shot learning) et le raisonnement compositionnel de concepts nouveaux. Nous introduisons Bongard-HOI, un nouveau benchmark de raisonnement visuel axé sur l'apprentissage compositionnel des interactions homme-objet (HOIs) à partir d'images naturelles. Ce benchmark s'inspire de deux caractéristiques souhaitables des problèmes classiques de Bongard (BPs) : 1) l'apprentissage de concepts en peu d'exemples, et 2) le raisonnement dépendant du contexte. Nous avons soigneusement constitué des instances en peu d'exemples incluant des exemples négatifs difficiles, où les images positives et négatives ne diffèrent que par leurs étiquettes d'action, rendant ainsi insuffisante une simple reconnaissance des catégories d'objets pour réussir ce benchmark. Nous avons également conçu plusieurs jeux de test afin d'étudier systématiquement la généralisation des modèles de reconnaissance visuelle, en variant le chevauchement des concepts HOI entre les jeux d'entraînement et de test des instances en peu d'exemples, allant d'un chevauchement partiel à l'absence totale de chevauchement. Bongard-HOI pose un défi considérable aux modèles actuels de reconnaissance visuelle : le modèle d'état de l'art pour la détection d'HOIs atteint seulement 62 % de précision sur une tâche de prédiction binaire en peu d'exemples, tandis que des participants humains amateurs sur MTurk atteignent 91 %. Avec ce benchmark Bongard-HOI, nous espérons stimuler davantage les recherches en raisonnement visuel, en particulier dans les systèmes intégrés de perception-raisonnement et dans l'apprentissage de représentations améliorées.