11日前
Silkie:大規模な視覚言語モデル向けの好みの蒸留
Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong

要約
本稿では、大規模視覚言語モデル(LVLM)における好みの蒸留(preference distillation)について検討し、視覚的文脈に根ざした有用かつ忠実な応答生成能力の向上を目指す。まず、AIによるアノテーションを活用して、視覚言語フィードバック(VLFeedback)データセットを構築した。具体的には、複数のデータセットから抽出されたマルチモーダルな指示をもとに、12種類のLVLMからサンプリングされたモデルによって応答を生成し、GPT-4Vを用いてその有用性、視覚的忠実性、倫理的配慮の観点から出力内容を評価した。さらに、得られた好みの教師信号を、直接好み最適化(Direct Preference Optimization; DPO)手法を用いてQwen-VL-Chatに蒸留した。その結果得られたモデル「Silkie」は、MMEベンチマークにおいて、知覚能力と認知能力の両面でそれぞれ6.9%および9.5%の相対的な性能向上を達成した。また、MMHal-Benchベンチマークにおいて3.02という新記録のスコアを記録し、幻覚の発生を顕著に低減することを実証した。さらなる分析から、本研究で構築したVLFeedbackデータセットを用いたDPOは、LVLMの細分化された知覚能力および複雑な認知能力の向上に主に寄与しており、人間によるアノテーションに基づく好みデータセットと比較して、より包括的な性能向上をもたらすことが明らかになった。