Bongard-HOI: Benchmarking Few-Shot Visual Reasoning für Human-Object-Interaktionen

Ein erheblicher Abstand bleibt zwischen den derzeitigen Modellen zur visuellen Mustererkennung und der menschlichen visuellen Kognition, insbesondere im Hinblick auf Few-Shot-Lernen und kompositionelle Schlussfolgerung neuartiger Konzepte. Wir stellen Bongard-HOI vor, eine neue visuelle Schlussfolgerungs-Benchmark, die sich auf das kompositionelle Lernen menschlicher Objekt-Interaktionen (Human-Object Interactions, HOIs) aus natürlichen Bildern konzentriert. Die Aufgabe ist inspiriert von zwei wünschenswerten Eigenschaften klassischer Bongard-Probleme (BPs): 1) Few-Shot-Konzeptlernen und 2) kontextabhängige Schlussfolgerung. Wir haben sorgfältig Few-Shot-Instanzen mit schwierigen Negativen zusammengestellt, bei denen positive und negative Bilder sich lediglich in den Aktionslabels unterscheiden, wodurch eine bloße Erkennung von Objekt-Kategorien nicht ausreicht, um die Benchmarks erfolgreich zu lösen. Zudem haben wir mehrere Testsets entworfen, um die Generalisierung visueller Lernmodelle systematisch zu untersuchen, wobei wir die Überlappung der HOI-Konzepte zwischen Trainings- und Testsets bei Few-Shot-Instanzen von partieller bis hin zu keiner Überlappung variieren. Bongard-HOI stellt eine erhebliche Herausforderung für derzeitige Modelle zur visuellen Erkennung dar: Der Stand der Technik im Bereich HOI-Detektion erreicht lediglich 62 % Genauigkeit bei der Few-Shot-Binärvorhersage, während selbst ungeübte menschliche Testpersonen auf MTurk eine Genauigkeit von 91 % erzielen. Mit der Bongard-HOI-Benchmark hoffen wir, die Forschungsanstrengungen im Bereich visueller Schlussfolgerung weiter voranzutreiben, insbesondere in Richtung integrierter Wahrnehmungs-Schlussfolgerungssysteme und verbesserten Darstellungslernverfahren.