
要約
スケール不変性(scale-invariance)は、多くのコンピュータビジョンのサブフィールドにおいて未解決の課題である。たとえば、物体のラベルはスケールに依存せずに同一であるべきであるが、多くの場合、モデルの予測値はスケールによって大きく変動する。特に、正解ラベルが提示スケールに応じて変化するタスクでは、この問題はさらに複雑になる。画像品質評価(Image Quality Assessment: IQA)においては、ダウンサンプリングによって歪み(例えばぼかしや圧縮アーティファクト)が弱体化し、主観的な評価において好意的な印象を与えることがある。したがって、知覚的画像品質を正確に予測するためには、クロス解像度IQA手法が、モデルの不備によって引き起こされる解像度依存性の誤差だけでなく、正解ラベル自体の知覚的シフト(label shift)も適切に捉える必要がある。本研究では、新たに構築された精密に設計されたクロス解像度IQAデータベース「KonX」を用いて、この二つの問題を分離して分析・検証する初めての研究を報告する。本論文の貢献は以下の通りである:1. KonXを用いて、提示解像度の変更に伴うラベルシフトが実証的に存在することを示した。2. 客観的IQA手法にはスケールバイアスが存在し、その結果、予測性能が低下することを明らかにした。3. これまでの最先端IQAモデル、特に最近のTransformerモデルを上回る性能を発揮するマルチスケール・マルチカラムDNNアーキテクチャを提案した。本研究は、画像品質評価分野における新たな研究課題を提起するとともに、その解決を実現した。