11日前

2BiVQA:UGC動画の品質評価を目的としたダブルバイリスティック・ニューラルネットワーク(Double Bi-LSTM)ベースの動画品質評価手法

Ahmed Telili, Sid Ahmed Fezza, Wassim Hamidouche, Hanene F. Z. Brachemi Meftah
2BiVQA:UGC動画の品質評価を目的としたダブルバイリスティック・ニューラルネットワーク(Double Bi-LSTM)ベースの動画品質評価手法
要約

近年、モバイルデバイスおよび動画共有プラットフォーム(例:YouTube、Facebook、TikTok、Twitchなど)の普及に伴い、ユーザー生成コンテンツ(User-Generated Content, UGC)動画はますます一般的になり、インターネット上のマルチメディアトラフィックの大部分を占めるようになっている。映画監督や映像制作プロフェッショナルが制作するプロフェッショナルな動画とは異なり、UGC動画は通常、素人が撮影・編集を行う過程で生じる複数の本物の劣化を含んでおり、これらは多様かつ未知の特性を持つ。UGC動画の品質予測は、ホスティングプラットフォームにおけるコーディング、トランスコーディング、ストリーミングなどの処理最適化およびモニタリングにおいて極めて重要である。しかし、UGC動画のブラインド品質評価は、劣化の種類が不明かつ多様である上に、元の完全な参照映像(pristine reference)が入手できないため、非常に困難である。本稿では、このような課題に対応するため、高精度かつ効率的なUGC動画向けブラインド動画品質評価(Blind Video Quality Assessment, BVQA)モデル「2BiVQA(Double Bi-LSTM Video Quality Assessment)」を提案する。2BiVQAは、3つの主要なモジュールから構成される。まず、画像パッチから判別力のある特徴量を抽出するための事前学習済み畳み込みニューラルネットワーク(CNN)を用い、その出力を2つの再帰型ニューラルネットワーク(RNN)に供給して空間的および時間的プーリングを行う。特に、2つの双方向長短期記憶ネットワーク(Bi-LSTM)を採用し、第1のBi-LSTMは画像パッチ間の短距離依存性を捉え、第2のBi-LSTMはフレーム間の長距離依存性を把握することで、時間的な記憶効果を考慮する。近年の大規模なUGC動画品質評価(VQA)データセットを用いた実験結果から、2BiVQAは、多数の最先端VQAモデルと比較して、高い性能を低コストで達成することが示された。本研究で提案する2BiVQAのソースコードは、以下のURLで公開されている:https://github.com/atelili/2BiVQA