次のトークンで十分:マルチモーダル大規模言語モデルを用いた現実的な画像品質および美的評価

モバイルインターネットの急速な拡大に伴い、ユーザー生成コンテンツ(UGC)画像が著しく増加しており、これによりUGC画像の包括的な評価は緊急かつ不可欠な課題となっている。近年、マルチモーダル大規模言語モデル(MLLM)は、画像品質評価(IQA)および画像美醜評価(IAA)において大きな可能性を示している。しかし、このような進展にもかかわらず、UGC画像の品質および美醜を効果的にスコアリングする上で、依然として2つの主要な課題が存在する。第一に、単一のスコアでは人間の階層的知覚を十分に捉えることが難しいこと。第二に、MLLMを用いて数値スコア(例えば平均意見スコア:MOS)を出力する方法が未解決のままである点である。これらの課題に対処するため、本研究では14,715枚のUGC画像を含む新しいデータセット「Realistic image Quality and Aesthetic(RealQA)」を提案する。各画像には、低レベル(例:画像の明瞭さ)、中レベル(例:被写体の整合性)、高レベル(例:構図)の3段階にわたる10種類の細分化された属性が付与されている。さらに、MLLMを用いて数値スコアを効果的に予測するための包括的かつ深層的な検証を実施した。驚くべきことに、次のトークン予測(next token paradigm)を用いてわずか2桁の追加重要数字を予測するだけで、最先端(SOTA)の性能を達成した。さらに、学習済みの細分化された属性とチェーン・オブ・シンキング(CoT)を組み合わせることで、提案手法はIQAおよびIAAの5つの公開データセットにおいてSOTA手法を上回る性能を示し、解釈可能性の面でも優れた結果をもたらした。また、動画品質評価(VQA)においても強力なゼロショット汎化性能を示した。本研究のコードおよびデータセットは公開予定である。