
要約
動画フレーム補間(Video Frame Interpolation: VFI)は現在、コンピュータビジョン、後期制作、動画エンコーディングなど幅広い分野で活発な研究テーマとなっており、特に大規模な運動、隠蔽(オクルージョン)、動的テクスチャを含む映像シーケンスにおいて、従来の手法が知覚的に安定した補間性能を発揮できないという課題が存在する。このような状況を踏まえ、本研究では、空間時間的マルチフロー構造に基づく新しい深層学習ベースのVFI手法、ST-MFNetを提案する。ST-MFNetは、多スケール・マルチフロー予測器を新たに導入し、多対一の中間フローを推定する。このマルチフローは従来の1対1オプティカルフローと組み合わせられ、大規模かつ複雑な運動を効果的に捉えることを可能にする。さらに、さまざまなテクスチャに対する補間性能の向上を図るため、拡張された時間窓におけるコンテンツ動態をモデル化する3D畳み込みニューラルネットワーク(3D CNN)も採用している。また、知覚的補間品質のさらなる向上を目的として、テクスチャ合成に当初開発されたST-GANフレームワーク内での学習を実施している。本手法は、14の最先端VFIアルゴリズムと比較して包括的な評価が行われており、多様かつ代表的なテストデータセットにおいて、ST-MFNetが一貫して優れた性能を発揮することが明らかになった。特に大規模な運動や動的テクスチャを含むケースでは、PSNRで最大1.09dBの顕著な向上が達成された。プロジェクトページ:https://danielism97.github.io/ST-MFNet