
要約
標準的なビデオフレーム補間手法は、まず入力フレーム間の光学フローを推定し、その後、運動に誘導されて中間フレームを合成します。最近のアプローチでは、これらの2つのステップを単一の畳み込みプロセスに統合し、運動と再サンプリングを同時に考慮する空間適応カーネルを使用して入力フレームを畳み込みます。これらの手法は、大きな運動に対処するために大きなカーネルが必要となり、大量のメモリが必要なため、一度にカーネルを推定できるピクセル数が制限されます。この問題に対処するために、本論文では1次元カーネルのペアを使用して入力フレーム上で局所分離可能な畳み込みとしてフレーム補間を定式化しています。通常の2次元カーネルと比較すると、1次元カーネルは大幅に少ないパラメータで推定できます。当方法では、深層完全畳み込みニューラルネットワークを開発し、2つの入力フレームを取り扱い、全てのピクセルに対して1次元カーネルのペアを同時に推定します。当方法はカーネルの推定と全体的なビデオフレームの合成を一度に行えるため、知覚損失を取り入れてニューラルネットワークを訓練し、視覚的に魅力的なフレームを作成することが可能となります。この深層ニューラルネットワークは、人間による注釈なしで広く利用可能なビデオデータを使用してエンドツーエンドで訓練されます。定性的および定量的な実験結果から、当方法が高品質なビデオフレーム補間に実用的な解決策であることが示されています。