HyperAIHyperAI

Command Palette

Search for a command to run...

VLIS: 単一モーダル言語モデルがマルチモーダル言語生成をガイドする

Jiwan Chung; Youngjae Yu

概要

多モーダル言語生成は、言語と視覚の相乗効果を活用する急速に発展している分野です。しかし、既存のビジョン-言語モデルは複雑な言語理解を必要とするタスクにおいて課題を抱えています。この問題に対処するために、我々は新たなフレームワークであるビジュアル-ランゲージ モデルとしての重要度サンプリング重み(Visual-Language models as Importance Sampling weights: VLIS)を提案します。VLISは、追加の学習を行わずに、ビジョン-言語モデルの視覚条件付け能力と単モーダルのテキスト専用言語モデルの言語理解能力を組み合わせます。このフレームワークは、各画像とテキストからポイントワイズ相互情報(pointwise mutual information)を抽出し、その値を重要度サンプリング重みとして使用して、テキスト専用モデルからのトークン確率を調整します。VLISは、常識理解(WHOOPS, OK-VQA, および ScienceQA)、複雑なテキスト生成(Concadia, Image Paragraph Captioning, および ROCStories)など、多様なタスクでビジョン-言語モデルの性能を向上させます。我々の結果は、VLISが多モーダル言語生成における有望な新しい方向性であることを示唆しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています