
要約
野生環境でのビデオの品質評価は、リファレンスビデオの不在と撮影時の歪みのために難題となっています。ヒューマンビジョンシステム(HVS)の知識は、野生環境でのビデオの客観的な品質評価方法を確立するのに役立ちます。本研究では、HVSの2つの重要な効果、すなわちコンテンツ依存性と時間記憶効果が、この目的に利用可能であることを示します。これらの効果を深層ニューラルネットワークに統合することにより、リファレンスなしの客観的なビデオ品質評価方法を提案します。コンテンツ依存性については、事前学習済みの画像分類ニューラルネットワークからその固有のコンテンツ認識特性を利用するために特徴量を抽出します。時間記憶効果については、特に時間遅れ(temporal hysteresis)などの長期依存関係をゲート付き再帰ユニットと主観的にインスピレーションを得た時間プーリング層を使用してネットワークに統合します。当手法の性能を検証するために、KoNViD-1k, CVD2014, LIVE-Qualcomm の3つの公開されている野生環境ビデオ品質評価データベースで実験を行いました。実験結果は、SROCC, KROCC, PLCC, RMSE の各指標において、最良の手法であるVBLIINDSよりも大幅に優れていることを示しています。具体的には、全体的な性能向上率が12.39%, 15.71%, 15.45%, 18.09%でした。さらに、アブレーションスタディによりコンテンツ認識特徴量と時間記憶効果のモデリングが当手法において重要な役割を果たしていることが確認されました。当手法のPyTorch実装はhttps://github.com/lidq92/VSFAで公開されています。