
要約
視覚コンテンツの知覚を測定することは、コンピュータビジョン分野における長年の課題である。画像の外観や品質を評価するための多数の数学的モデルが開発されてきた。これらの手法は、ノイズやぼかしの程度といった劣化要因の定量評価において一定の有効性を示しているが、それらの定量結果は人間の言語表現と緩やかにしか結びついていない。特に、視覚コンテンツの「雰囲気」や「印象」といったより抽象的な知覚に関しては、従来の手法は、人的なユーザースタディによって収集されたラベル付きデータを用いて明示的に学習された教師ありモデルに頼るしかなかった。本論文では、こうした従来の枠組みを越えて、対比的言語-画像事前学習(Contrastive Language-Image Pre-training:CLIP)モデルに内包された豊かな視覚言語事前知識を活用し、画像の品質知覚(外観)および抽象的知覚(雰囲気)をゼロショット(zero-shot)の形で評価するアプローチを提案する。具体的には、効果的なプロンプト設計について検討し、事前知識を効果的に活用するためのプロンプトペアリング戦略を提示する。さらに、制御されたデータセットおよび画像品質評価(Image Quality Assessment:IQA)ベンチマークを用いた広範な実験を実施した。実験結果から、CLIPが異なる知覚評価に普遍的に適応可能な意味のある事前知識を捉えていることが明らかになった。本研究のコードは、https://github.com/IceClear/CLIP-IQA にて公開されている。