15日前
RLAIF-V:オープンソースAIフィードバックがSuper GPT-4Vの信頼性を実現
Tianyu Yu, Haoye Zhang, Qiming Li, Qixin Xu, Yuan Yao, Da Chen, Xiaoman Lu, Ganqu Cui, Yunkai Dang, Taiwen He, Xiaocheng Feng, Jun Song, Bo Zheng, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun

要約
幻覚低減のための従来のフィードバック学習は、手作業による手間のかかるラベル付けや高価な専用モデルに依存しており、オープンソースのMLLM(マルチモーダル大規模言語モデル)を用いて高品質なフィードバックを構築するための基盤的な知識が、研究コミュニティに欠如している状況にあります。本研究では、完全にオープンソースの枠組みでMLLMを整合させる新規フレームワーク「RLAIF-V」を提案します。RLAIF-Vは、2つの視点からオープンソースMLLMを最大限に活用するものであり、その一つは好み学習のための高品質なフィードバックデータの生成、もう一つは推論時スケーラビリティを実現する自己フィードバックガイドラインの構築です。自動評価および人間評価を含む6つのベンチマークにおける広範な実験の結果、RLAIF-Vは好み学習時および推論時において、モデルの信頼性を顕著に向上させることを示しました。RLAIF-V 7Bは物体幻覚を80.7%、全体的な幻覚を33.7%削減しました。さらに注目すべきは、RLAIF-V 12BがオープンソースMLLMの自己整合可能性を明らかにした点であり、モデルが自身のフィードバックから学習することで、GPT-4V並みの信頼性を達成できる可能性を示しました。