HyperAIHyperAI

Command Palette

Search for a command to run...

CLIPにおける視覚言語知識蒸留を用いたマルチモーダル生成の実現

Anonymous

概要

近年、画像とテキストのペアデータを巨量に用いて双方向アーキテクチャ(例:CLIP)に基づく大規模な視覚言語事前学習(VLP)は、多モーダルなアライメントタスクにおいて優れた性能を示している。しかし、このアプローチには、テキストエンコーダーが弱いため、生成型の多モーダルタスクには対応できないという課題がある。この問題を解決するために、視覚言語知識蒸留(VLKD)を用いて、双方向VLPモデルに事前学習済み言語モデル(PLM)を追加する手法を提案する。これにより、多モーダル生成能力を有するモデルを実現する。VLKDは、初期から事前学習を行う場合と比べて、データおよび計算コストが非常に効率的である。実験結果から、提案モデルは、オープンエンド型の視覚的質問応答(VQA)や画像キャプション生成といった多モーダル生成タスクにおいて、優れたゼロショット性能を達成している。例えば、VQA 2.0データセットにおいて39.7%のゼロショット精度を達成し、従来の最先端ゼロショットモデルよりも14倍少ないパラメータ数でこれを上回った。さらに、VLKD処理後もPLMの元々のテキスト処理能力が維持されているため、本モデルは多モーダルタスクだけでなく、単モーダルタスクにも柔軟に対応可能な汎用性を持つ。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CLIPにおける視覚言語知識蒸留を用いたマルチモーダル生成の実現 | 記事 | HyperAI超神経