HyperAIHyperAI

Command Palette

Search for a command to run...

Bongard-HOI: Benchmarking Few-Shot Visual Reasoning für Human-Object-Interaktionen

Huaizu Jiang Xiaojian Ma Weili Nie Zhiding Yu Yuke Zhu Song-Chun Zhu Anima Anandkumar

Zusammenfassung

Ein erheblicher Abstand bleibt zwischen den derzeitigen Modellen zur visuellen Mustererkennung und der menschlichen visuellen Kognition, insbesondere im Hinblick auf Few-Shot-Lernen und kompositionelle Schlussfolgerung neuartiger Konzepte. Wir stellen Bongard-HOI vor, eine neue visuelle Schlussfolgerungs-Benchmark, die sich auf das kompositionelle Lernen menschlicher Objekt-Interaktionen (Human-Object Interactions, HOIs) aus natürlichen Bildern konzentriert. Die Aufgabe ist inspiriert von zwei wünschenswerten Eigenschaften klassischer Bongard-Probleme (BPs): 1) Few-Shot-Konzeptlernen und 2) kontextabhängige Schlussfolgerung. Wir haben sorgfältig Few-Shot-Instanzen mit schwierigen Negativen zusammengestellt, bei denen positive und negative Bilder sich lediglich in den Aktionslabels unterscheiden, wodurch eine bloße Erkennung von Objekt-Kategorien nicht ausreicht, um die Benchmarks erfolgreich zu lösen. Zudem haben wir mehrere Testsets entworfen, um die Generalisierung visueller Lernmodelle systematisch zu untersuchen, wobei wir die Überlappung der HOI-Konzepte zwischen Trainings- und Testsets bei Few-Shot-Instanzen von partieller bis hin zu keiner Überlappung variieren. Bongard-HOI stellt eine erhebliche Herausforderung für derzeitige Modelle zur visuellen Erkennung dar: Der Stand der Technik im Bereich HOI-Detektion erreicht lediglich 62 % Genauigkeit bei der Few-Shot-Binärvorhersage, während selbst ungeübte menschliche Testpersonen auf MTurk eine Genauigkeit von 91 % erzielen. Mit der Bongard-HOI-Benchmark hoffen wir, die Forschungsanstrengungen im Bereich visueller Schlussfolgerung weiter voranzutreiben, insbesondere in Richtung integrierter Wahrnehmungs-Schlussfolgerungssysteme und verbesserten Darstellungslernverfahren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp