2ヶ月前

事前学習された単一モーダルおよび複合モーダルモデルにおける視覚的常識理解

Chenyu Zhang; Benjamin Van Durme; Zhuowan Li; Elias Stengel-Eskin
事前学習された単一モーダルおよび複合モーダルモデルにおける視覚的常識理解
要約

私たちの物体に関する常識的な知識には、それらの典型的な視覚的属性が含まれています。たとえば、バナナは通常黄色か緑色であり、紫色ではないことが知られています。テキストや画像のコーパスは報告バイアスに影響を受けやすく、この世界の知識を異なる程度で忠実に表現します。本論文では、単一モーダル(言語のみ)モデルとマルチモーダル(画像と言語)モデルが広範囲にわたる視覚的に显著な属性をどの程度捉えているかを調査します。そのために、5000以上の対象物について色、形状、素材、サイズ、および視覚的共起という5つの属性タイプをカバーする「Visual Commonsense Tests (ViComTe)」データセットを作成しました。このデータセットの妥当性を確認するために、我々の基盤となる色データがPaikら(2021)によって提供されたクラウドソーシングによる色判断データよりもはるかに良く相関することを示しています。次に、我々のデータセットを使用して事前学習済みの単一モーダルモデルとマルチモーダルモデルを評価します。結果は、マルチモーダルモデルが属性分布をより正確に再構築できるものの、依然として報告バイアスに影響を受けていることを示しています。さらに、モデルの規模を大きくしても性能向上には寄与しないことから、視覚的常識の鍵はデータにあると考えられます。

事前学習された単一モーダルおよび複合モーダルモデルにおける視覚的常識理解 | 最新論文 | HyperAI超神経