2ヶ月前

Z-LaVI: ゼロショット言語ソルバーを視覚的想像力で駆動する

Yue Yang; Wenlin Yao; Hongming Zhang; Xiaoyang Wang; Dong Yu; Jianshu Chen
Z-LaVI: ゼロショット言語ソルバーを視覚的想像力で駆動する
要約

大規模な事前学習言語モデルは、下流の言語理解タスクの解決において著しい進歩を遂げています。しかし、これらのモデルは一般的に報告バイアスに悩まされており、これは書かれたテキスト中に明示的な常識的な知識が欠けている現象(例えば、「オレンジは橙色である」)を指します。この制約を克服するために、私たちは新しい手法Z-LaVIを開発し、言語モデルに視覚的想像能力を付与しました。具体的には、以下の2つの補完的な「想像」タイプを利用しています:(i) 画像検索を通じて既存の画像を想起することと (ii) テキストから画像生成により存在しない画像を作成することです。言語入力と想像力を併用することで、事前学習されたビジョン-言語モデル(例:CLIP)は最終的に元の言語タスクに対するゼロショット解法を構築します。特に、想像力を用いて言語モデルを強化することは、視覚的知識を利用して平易な言語タスクを解決するのに効果的です。その結果、Z-LaVIは多様な言語タスクにおいて既存の言語モデルのゼロショット性能を一貫して向上させています。

Z-LaVI: ゼロショット言語ソルバーを視覚的想像力で駆動する | 最新論文 | HyperAI超神経