HyperAIHyperAI
vor 11 Tagen

Bongard-OpenWorld: Few-Shot-Reasoning für freiformige visuelle Konzepte in der realen Welt

Rujie Wu, Xiaojian Ma, Zhenliang Zhang, Wei Wang, Qing Li, Song-Chun Zhu, Yizhou Wang
Bongard-OpenWorld: Few-Shot-Reasoning für freiformige visuelle Konzepte in der realen Welt
Abstract

Wir stellen Bongard-OpenWorld vor, eine neue Benchmark zur Evaluierung von Few-Shot-Reasoning-Fähigkeiten im realen Weltkontext für maschinelles Sehen. Sie basiert auf den klassischen Bongard-Problemen (BPs): Gegeben sind zwei Mengen von Bildern (positive und negative), wobei das Modell diejenige Menge identifizieren muss, zu der Abfragbilder gehören, indem es visuelle Konzepte induziert, die ausschließlich anhand der Bilder der positiven Menge dargestellt sind. Unsere Benchmark übernimmt die Few-Shot-Konzeptinduktion der ursprünglichen BPs, fügt jedoch zwei neue Herausforderungsebenen hinzu: 1) Open-World-Freiform-Konzepte, da die visuellen Konzepte in Bongard-OpenWorld einzigartige Kombinationen von Begriffen aus einem offenen Vokabular darstellen, die von Objektkategorien über abstrakte visuelle Attribute bis hin zu alltäglichen faktischen Kenntnissen reichen; 2) reale Weltbilder, im Gegensatz zu den synthetischen Diagrammen, die von vielen bisherigen Ansätzen verwendet werden. In unserer Untersuchung stellt Bongard-OpenWorld bereits eine erhebliche Herausforderung für aktuelle Few-Shot-Reasoning-Algorithmen dar. Wir untersuchen weiterhin, inwieweit kürzlich vorgestellte große Sprachmodelle (LLMs) und Vision-Sprache-Modelle (VLMs) in der Lage sind, unsere Aufgabe zu lösen, indem wir VLMs direkt untersuchen und VLMs sowie LLMs in einem interaktiven Reasoning-Schema kombinieren. Zudem entwickeln wir einen neuro-symbolischen Reasoning-Ansatz, der LLMs und VLMs mit logischem Schließen verbindet, um den menschlichen Problemlösungsprozess bei Bongard-Problemen nachzuahmen. Dennoch gelingt es keiner dieser Ansätze, die Lücke zwischen Mensch und Maschine zu schließen: Der beste Lerner erreicht eine Genauigkeit von 64 %, während menschliche Probanden problemlos 91 % erreichen. Wir hoffen, dass Bongard-OpenWorld uns helfen wird, die Grenzen der gegenwärtigen visuellen Intelligenz besser zu verstehen und zukünftige Forschung zu visuellen Agenten mit stärkeren Fähigkeiten im Few-Shot-Visuellen-Reasoning voranzutreiben.

Bongard-OpenWorld: Few-Shot-Reasoning für freiformige visuelle Konzepte in der realen Welt | Neueste Forschungsarbeiten | HyperAI