HyperAIHyperAI

Command Palette

Search for a command to run...

Silkie:大規模な視覚言語モデル向けの好みの蒸留

Lei Li Zhihui Xie Mukai Li Shunian Chen Peiyi Wang Liang Chen Yazheng Yang Benyou Wang Lingpeng Kong

概要

本稿では、大規模視覚言語モデル(LVLM)における好みの蒸留(preference distillation)について検討し、視覚的文脈に根ざした有用かつ忠実な応答生成能力の向上を目指す。まず、AIによるアノテーションを活用して、視覚言語フィードバック(VLFeedback)データセットを構築した。具体的には、複数のデータセットから抽出されたマルチモーダルな指示をもとに、12種類のLVLMからサンプリングされたモデルによって応答を生成し、GPT-4Vを用いてその有用性、視覚的忠実性、倫理的配慮の観点から出力内容を評価した。さらに、得られた好みの教師信号を、直接好み最適化(Direct Preference Optimization; DPO)手法を用いてQwen-VL-Chatに蒸留した。その結果得られたモデル「Silkie」は、MMEベンチマークにおいて、知覚能力と認知能力の両面でそれぞれ6.9%および9.5%の相対的な性能向上を達成した。また、MMHal-Benchベンチマークにおいて3.02という新記録のスコアを記録し、幻覚の発生を顕著に低減することを実証した。さらなる分析から、本研究で構築したVLFeedbackデータセットを用いたDPOは、LVLMの細分化された知覚能力および複雑な認知能力の向上に主に寄与しており、人間によるアノテーションに基づく好みデータセットと比較して、より包括的な性能向上をもたらすことが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています