17日前

Bongard-HOI:人間-物体インタラクションにおける少サンプル視覚推論のベンチマーク

Huaizu Jiang, Xiaojian Ma, Weili Nie, Zhiding Yu, Yuke Zhu, Song-Chun Zhu, Anima Anandkumar
Bongard-HOI:人間-物体インタラクションにおける少サンプル視覚推論のベンチマーク
要約

今日の視覚パターン認識モデルと人間レベルの視覚認知の間に、特に少数例学習(few-shot learning)や新概念の構成的推論(compositional reasoning)において、依然として大きなギャップが存在している。本研究では、自然画像から人間-物体相互作用(Human-Object Interactions: HOIs)の構成的学習に焦点を当てた新たな視覚推論ベンチマーク「Bongard-HOI」を提案する。このベンチマークは、古典的なボンガード問題(Bongard Problems: BPs)が示す2つの望ましい特性——1)少数例による概念学習、2)文脈依存的推論——に着想を得ている。我々は、難易度の高いネガティブサンプルを慎重に選定した少数例インスタンスを構築し、ポジティブ画像とネガティブ画像の違いが行動ラベル(action label)のみに限定されるように設計した。これにより、物体カテゴリの単なる認識だけでは本ベンチマークの課題を満たすことは不可能となる。さらに、視覚学習モデルの一般化能力を体系的に検証できるように、少数例インスタンスの訓練セットとテストセットにおけるHOI概念の重複度を、部分的重複から完全な非重複まで変化させた複数のテストセットを設計した。Bongard-HOIは、現在の視覚認識モデルにとって大きな課題を提示している。最先端のHOI検出モデルでも、少数例における二値予測タスクではわずか62%の精度にとどまり、一方でMTurk上でのアマチュア人間のテスト参加者でも91%の正確性を達成している。本ベンチマークを通じて、視覚推論分野、特に包括的知覚-推論システムやより優れた表現学習の研究をさらに推進することを期待している。

Bongard-HOI:人間-物体インタラクションにおける少サンプル視覚推論のベンチマーク | 最新論文 | HyperAI超神経