2ヶ月前

PACS: 物理音視覚常識推論のためのデータセット

Samuel Yu; Peter Wu; Paul Pu Liang; Ruslan Salakhutdinov; Louis-Philippe Morency
PACS: 物理音視覚常識推論のためのデータセット
要約

AIが病院、学校、職場などの実世界のシナリオで安全に導入されるためには、物理的な世界について堅牢な推論を行う能力が必要です。この推論の基礎となるのは物理的常識:利用可能な物体の物理的特性と機能性を理解し、それらがどのように操作され、他の物体とどのように相互作用するかを把握することです。物理的常識推論は基本的に多感覚的なタスクであり、物理的特性は複数のモダリティ(視覚と聴覚がその二つ)を通じて表現されます。当研究では、実世界での物理的常識推論への一歩としてPACSを提供します。PACSは、物理的常識属性のために注釈された最初の音声視覚ベンチマークです。PACSには13,400組の質問-回答ペアが含まれており、1,377個の一意な物理的常識質問と1,526本の動画から構成されています。当データセットは、音声をこの多モーダル問題の核心的な要素として取り入れることにより、物理的推論研究分野における新たな進展機会を提供します。PACSを使用して、我々は新しい課題に対して複数の最先端モデルを評価しました。一部のモデルは有望な結果(70%の精度)を示していますが、すべての人間の性能(95%の精度)には及ばないことが明らかになりました。最後に、当研究では多モーダル推論の重要性を示し、将来の研究への可能性のある方向性を提案しています。

PACS: 物理音視覚常識推論のためのデータセット | 最新論文 | HyperAI超神経