Transformer、相対順位付けおよび自己整合性を用いた参照なし画像品質評価

非参照画像品質評価(No-Reference Image Quality Assessment; NR-IQA)の目的は、主観的な評価と整合性を持つ画像の知覚品質を推定することである。しかし、元画像(プリズム画像)が存在しないため、この問題は複雑かつ未解決の課題である。本論文では、畳み込みニューラルネットワーク(Convolutional Neural Networks; CNN)とTransformerにおける自己注意機構(self-attention mechanism)を統合したハイブリッドアプローチを用いて、入力画像から局所的特徴と非局所的特徴の両方を抽出することで、NR-IQAタスクに新たなアプローチを提案する。まず、CNNを用いて画像の局所構造情報を捉える。その後、抽出されたCNN特徴に生じる局所性バイアスを回避し、画像の非局所的表現を獲得するために、これらの特徴をTransformerモデルへの順序入力として扱い、Transformerを適用する。さらに、主観的スコアと客観的スコアの間の単調性相関を強化するために、各バッチ内の画像間における相対的な距離情報を活用し、それらの相対順序を強制する。最後に、我々は、入力に等変変換(例:水平反転)を適用した場合、NR-IQAモデルの性能が低下することを観察した。このため、自己一貫性(self-consistency)を自己教師信号の源として利用することで、NR-IQAモデルのロバスト性を向上させる手法を提案する。具体的には、各画像とその水平反転変換後の画像に対する品質評価モデルの出力間で自己一貫性を強制することで、豊富な自己教師信号を活用し、モデルの不確実性を低減する。本手法の有効性を検証するため、合成画像および実画像を含む7つの標準的IQAデータセット上で評価を行った結果、本モデルは複数のデータセットにおいて最先端の性能を達成した。