HyperAIHyperAI

Command Palette

Search for a command to run...

GenRecal: 大規模から小規模への再校正後の生成 言語-視覚モデル

Byung-Kwan Lee Ryo Hachiuma Yong Man Ro Yu-Chiang Frank Wang Yueh-Hua Wu

概要

最近の視覚言語モデル(Vision-Language Models: VLMs)の進歩は、大規模言語モデル(Large Language Models: LLMs)を活用することで、GPT-4Vなどのクローズドソースシステムと同等の性能を達成しています。しかし、これらのモデルを実世界のシナリオに展開し、特にリソース制約のあるデバイスで利用することは、その大きな計算負荷のために依然として困難です。この課題に対処するため、大規模なVLMからより小さな、効率的な対応物へ知識を蒸留するという関心が高まっています。ここで重要な課題は、異なるLLMに基づいて構築され、語彙サイズ、トークン分割、トークンインデックス順序などが異なる多様なトークンタイプを使用するVLMアーキテクチャの多様性から生じています。この特定のVLMタイプへの制限という課題に対処するために、私たちは「再校正後の生成」(Generation after Recalibration: GenRecal)と呼ばれる新しい汎用的な蒸留フレームワークを提案します。GenRecalは、異種間のVLM間で特徴表現を合わせて適応させる再校正器(Recalibrator)を組み込んでおり、異なる種類のVLM間での効果的な知識転送を可能にします。複数の難易度の高いベンチマークにおける広範な実験を通じて、私たちはGenRecalがベースライン性能を大幅に向上させることを示しており、最終的には大規模なオープンソースおよびクローズドソースのVLMを超える性能を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
GenRecal: 大規模から小規模への再校正後の生成 言語-視覚モデル | 記事 | HyperAI超神経