18日前
GenRecal: 大規模から小規模への再校正後の生成 言語-視覚モデル
Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

要約
最近の視覚言語モデル(Vision-Language Models: VLMs)の進歩は、大規模言語モデル(Large Language Models: LLMs)を活用することで、GPT-4Vなどのクローズドソースシステムと同等の性能を達成しています。しかし、これらのモデルを実世界のシナリオに展開し、特にリソース制約のあるデバイスで利用することは、その大きな計算負荷のために依然として困難です。この課題に対処するため、大規模なVLMからより小さな、効率的な対応物へ知識を蒸留するという関心が高まっています。ここで重要な課題は、異なるLLMに基づいて構築され、語彙サイズ、トークン分割、トークンインデックス順序などが異なる多様なトークンタイプを使用するVLMアーキテクチャの多様性から生じています。この特定のVLMタイプへの制限という課題に対処するために、私たちは「再校正後の生成」(Generation after Recalibration: GenRecal)と呼ばれる新しい汎用的な蒸留フレームワークを提案します。GenRecalは、異種間のVLM間で特徴表現を合わせて適応させる再校正器(Recalibrator)を組み込んでおり、異なる種類のVLM間での効果的な知識転送を可能にします。複数の難易度の高いベンチマークにおける広範な実験を通じて、私たちはGenRecalがベースライン性能を大幅に向上させることを示しており、最終的には大規模なオープンソースおよびクローズドソースのVLMを超える性能を達成しています。