
ビデオ品質評価(VQA)はコンピュータビジョン分野における重要な課題である。コンピュータビジョン応用で扱われるビデオは通常、自然環境(イン・ザ・ワイルド)で撮影されたものである。本研究では、参照ビデオが存在しないこと、歪みの複雑さ、およびビデオコンテンツの多様性という要因により、極めて困難な課題である「イン・ザ・ワイルド」ビデオの自動品質評価に焦点を当てる。さらに、既存のデータセット間ではビデオコンテンツや歪みの特性が大きく異なっており、これによりデータ駆動型手法がデータセット間評価(cross-dataset evaluation)において劣った性能を示すことが問題となっている。品質評価モデルの性能向上を目指して、本研究では人間の視覚システムの特性である「コンテンツ依存性」と「時間的記憶効果」に着目し、人間の知覚からインスピレーションを得たアプローチを採用する。データセット間評価の課題に対応するため、複数のデータセットを統合して1つのVQAモデルを学習する「混合データセット学習戦略」を検討した。提案する統一フレームワークは、相対的品質評価器、非線形マッピング、データセット固有の知覚スケール整合の3段階を明示的に含み、相対的品質、知覚的品質、主観的品質を統合的に予測する。本研究では、LIVE-VQC、LIVE-Qualcomm、KoNViD-1k、CVD2014の4つの公開データセットを用いて、イン・ザ・ワイルドVQAに関する実験を実施した。実験結果により、混合データセット学習戦略の有効性が確認され、最先端モデルと比較して、提案モデルが優れた性能を発揮することが証明された。再現性を確保するため、本手法のPyTorch実装をhttps://github.com/lidq92/MDTVSFAにて公開している。