Command Palette
Search for a command to run...
VLIS: 単一モーダル言語モデルがマルチモーダル言語生成をガイドする
VLIS: 単一モーダル言語モデルがマルチモーダル言語生成をガイドする
Jiwan Chung; Youngjae Yu
概要
多モーダル言語生成は、言語と視覚の相乗効果を活用する急速に発展している分野です。しかし、既存のビジョン-言語モデルは複雑な言語理解を必要とするタスクにおいて課題を抱えています。この問題に対処するために、我々は新たなフレームワークであるビジュアル-ランゲージ モデルとしての重要度サンプリング重み(Visual-Language models as Importance Sampling weights: VLIS)を提案します。VLISは、追加の学習を行わずに、ビジョン-言語モデルの視覚条件付け能力と単モーダルのテキスト専用言語モデルの言語理解能力を組み合わせます。このフレームワークは、各画像とテキストからポイントワイズ相互情報(pointwise mutual information)を抽出し、その値を重要度サンプリング重みとして使用して、テキスト専用モデルからのトークン確率を調整します。VLISは、常識理解(WHOOPS, OK-VQA, および ScienceQA)、複雑なテキスト生成(Concadia, Image Paragraph Captioning, および ROCStories)など、多様なタスクでビジョン-言語モデルの性能を向上させます。我々の結果は、VLISが多モーダル言語生成における有望な新しい方向性であることを示唆しています。