HyperAIHyperAI

Command Palette

Search for a command to run...

ビジョン言語ビジョン 自動エンコーダー: ディフュージョンモデルからのスケーラブルな知識蒸留

Tiezheng Zhang Yitong Li Yu-cheng Chou Jieneng Chen Alan Yuille Chen Wei Junfei Xiao

概要

最先端のビジョン言語モデル(VLMs)を構築し、強力なキャプション生成能力を持つためには、通常、数十億の高品質な画像-テキストペアで訓練を行う必要があり、数百万時間のGPU時間を要します。本論文では、ビジョン-言語-ビジョン(VLV)オートエンコーダー枠組みを導入します。この枠組みは戦略的に以下の事前学習済みコンポーネントを活用します:ビジョンエンコーダー、テキストから画像への変換(T2I)拡散モデルのデコーダー、そしてその後に大規模言語モデル(LLM)。特に、事前学習済みのT2I拡散デコーダーを固定することで言語表現空間を正則化し、情報ボトルネックを確立しています。私たちのVLVパイプラインは連続埋め込みを使用してテキスト条件付き拡散モデルからの知識を効果的に抽出し、高品質な再構成を通じて包括的な意味理解を示しています。さらに、事前学習済みのLLMを中間言語表現から詳細な説明へとデコードするように微調整することにより、GPT-4oやGemini 2.0 Flashなどの主要モデルと匹敵する最先端(SoTA)のキャプション生成器を構築しています。当手法は優れたコスト効率を持ち、データ要件を大幅に削減しており、主に単一モーダル画像を使用した訓練と既存の事前学習済みモデル(画像エンコーダー、T2I拡散モデル、およびLLM)の最大限の活用により、大量のペア画像-テキストデータセットが必要ない状態を作り出しており、総訓練費用は1,000米ドル未満となっています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ビジョン言語ビジョン 自動エンコーダー: ディフュージョンモデルからのスケーラブルな知識蒸留 | 記事 | HyperAI超神経