17日前

大規模マルチモーダルモデルにおけるホールーシュレーションの軽減:ロバストなインストラクションチューニングによる手法

Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
大規模マルチモーダルモデルにおけるホールーシュレーションの軽減:ロバストなインストラクションチューニングによる手法
要約

多モーダルタスクにおける有望な進展にもかかわらず、現在の大型多モーダルモデル(LMMs)は、関連する画像や人間の指示と整合性のない誤った記述(ホールーシュレーション)を生成しやすいという問題を抱えている。本研究では、これを解決するために、初めての大規模かつ多様な視覚指示チューニングデータセット「Large-scale Robust Visual (LRV)-Instruction」を提案する。本データセットは、GPT-4によって生成された40万件の視覚指示を含み、オープンエンドな指示と回答を伴う16種類の視覚言語タスクをカバーしている。既存の研究が主にポジティブな指示サンプルに注目しているのに対し、本研究ではより堅牢な視覚指示チューニングを実現するため、ポジティブおよびネガティブな両方の指示を含むデータセットを設計した。ネガティブな指示は、以下の3つの意味的レベルで設計されている:(i)存在しないオブジェクトの操作、(ii)存在するオブジェクトの操作、(iii)知識の操作。LMMsが生成するホールーシュレーションを効率的に評価するため、人間の専門家と同等の評価を可能にする安定したアプローチとして、GPT-4を活用した視覚指示評価手法「GPT4-Assisted Visual Instruction Evaluation(GAVIE)」を提案する。GAVIEは人間による正解ラベル(groundtruth)を必要とせず、さまざまな指示フォーマットにも柔軟に対応可能である。本研究では、LMMsのホールーシュレーションに関する包括的な実験を実施した。その結果、既存のLMMsは本研究で提案したネガティブな指示、特に「存在するオブジェクトの操作」および「知識の操作」に関する指示に対して顕著なホールーシュレーションを示すことが明らかになった。さらに、MiniGPT4およびmPLUG-OwlをLRV-Instructionでファインチューニングすることで、ホールーシュレーションを効果的に低減でき、かつ複数の公開データセットにおける性能も最先端手法を上回ることを確認した。また、訓練データにおけるポジティブとネガティブサンプルのバランスの取れた比率が、より堅牢なモデルの構築に寄与することも観察された。コードおよびデータは、https://github.com/FuxiaoLiu/LRV-Instruction にて公開されている。

大規模マルチモーダルモデルにおけるホールーシュレーションの軽減:ロバストなインストラクションチューニングによる手法 | 最新論文 | HyperAI超神経