2ヶ月前

WinoGAViL: ゲーム化された視覚言語モデルの関連性ベンチマーク

Yonatan Bitton; Nitzan Bitton Guetta; Ron Yosef; Yuval Elovici; Mohit Bansal; Gabriel Stanovsky; Roy Schwartz
WinoGAViL: ゲーム化された視覚言語モデルの関連性ベンチマーク
要約

視覚言語モデルは、視覚的な質問応答などのタスクで優れた性能を発揮していますが、基本的な人間の常識推論スキルには苦戦します。本研究では、WinoGAViL: 視覚言語関連ゲーム(例えば、オオカミ男と満月の関連)を導入し、動的な評価ベンチマークとして使用します。人気のあるカードゲーム「Codenames」に着想を得て、スパイマスターが複数の視覚候補に関連するテキストの手がかりを与え、他のプレイヤーがそれらを特定しようとします。人間のプレイヤーは、ライバルAIモデルにとって難しくても他の人間プレイヤーが解けるような関連を作成することで報酬を受けます。私たちはこのゲームを使用して3.5Kのインスタンスを集めました。これらのインスタンスは人間にとって直感的(>90%ジャッカード指数)ですが、最先端のAIモデルにとっては難しく、最良のモデル(ViLT)でも52%の得点しか達成できず、主に手がかりが視覚的に明確な場合に成功しています。私たちの分析およびプレイヤーからのフィードバックは、収集された関連が一般的な知識、常識、抽象化など多様な推論スキルを必要とすることを示しています。データセット、コード、インタラクティブゲームを公開し、将来のデータ収集を行い、より良い関連能力を持つモデルを開発するために利用できるようにしています。