2ヶ月前
Q-Align: 離散的なテキスト定義レベルを用いた視覚スコアリングのためのLMMsの教育
Wu, Haoning ; Zhang, Zicheng ; Zhang, Weixia ; Chen, Chaofeng ; Liao, Liang ; Li, Chunyi ; Gao, Yixuan ; Wang, Annan ; Zhang, Erli ; Sun, Wenxiu ; Yan, Qiong ; Min, Xiongkuo ; Zhai, Guangtao ; Lin, Weisi

要約
オンラインで利用可能な視覚コンテンツの急増は、多様な種類の視覚コンテンツに対して堅牢に評価スコアを算出できる正確な機械評価システムの必要性を強調しています。最近の研究では、大規模マルチモーダルモデル(LMMs)が関連する広範な分野で優れた可能性を持っていることが示されていますが、本研究では、これらのモデルを人間の意見と一致した視覚評価に教える方法を探ります。主観的な研究において、人間の評価者が離散的なテキスト定義レベルのみを学習し判断することに注目し、この主観的なプロセスを模倣してLMMsにテキスト定義レベルでの評価を教える提案を行います。提案されたQ-Alignは、画像品質評価(IQA)、画像美しさ評価(IAA)、ならびにビデオ品質評価(VQA)タスクにおいて、元のLMM構造のもとで最先端の性能を達成しています。さらに、シラバスにより3つのタスクを1つのモデルであるOneAlignに統合しました。実験では、離散レベルベースのシラバスが直接スコアベースの変種よりもLMMsにとって有利であることを示しています。当該コードおよび事前学習済みウェイトは、https://github.com/Q-Future/Q-Align で公開されています。