HyperAIHyperAI

Command Palette

Search for a command to run...

Bongard-OpenWorld:現実世界における自由形式の視覚的概念に対するFew-Shot推論

Rujie Wu Xiaojian Ma Zhenliang Zhang Wei Wang Qing Li Song-Chun Zhu Yizhou Wang

概要

本稿では、機械視覚における現実世界における少数ショット推論の評価を目的とした新規ベンチマーク「Bongard-OpenWorld」を紹介する。このベンチマークは古典的なボンガード問題(Bongard Problems, BPs)に由来する。すなわち、画像の正例群と負例群が与えられたとき、モデルはそれらから視覚的概念を誘導し、クエリ画像がどちらの群に属するかを識別する必要がある。この際、視覚的概念は正例群の画像のみによって完全に定義される。本ベンチマークは元来のBPsが持つ少数ショット概念誘導の特性を継承しつつ、新たに二つの挑戦的要素を導入している。第一に、「開世界自由形式の概念」:Bongard-OpenWorldにおける視覚的概念は、物体カテゴリから抽象的な視覚的属性、日常的な事実知識に至るまで、オープンな語彙から構成される独自の複合概念である。第二に、「現実世界の画像」:多くの先行研究が使用する合成図形ではなく、実際の自然画像を用いることで、より現実的な課題設定を実現している。我々の調査において、Bongard-OpenWorldは既存の少数ショット推論アルゴリズムにとって大きな課題を提示している。さらに、最近登場した大規模言語モデル(Large Language Models, LLMs)および視覚言語モデル(Vision-Language Models, VLMs)が本タスクをどの程度解けるかを検証した。具体的には、VLMを直接プローブするアプローチ、VLMとLLMを相互作用型推論スキームで統合するアプローチ、さらにはLLMとVLMを論理的推論と統合する神経記号的推論アプローチを考案し、人間の問題解決プロセスを模倣することを試みた。しかし、これらのすべてのアプローチにおいても、人間と機械の性能ギャップは依然として大きく、最良のモデルでも64%の正解率にとどまり、一方で人間の参加者は91%の高精度を達成している。本研究を通じて、Bongard-OpenWorldが、現在の視覚知能の限界をより深く理解する手助けとなり、より強力な少数ショット視覚推論能力を持つ次世代の視覚エージェントの研究を促進することを期待している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています