17日前

Transformerを用いた動画フレーム補間

Liying Lu, Ruizheng Wu, Huaijia Lin, Jiangbo Lu, Jiaya Jia
Transformerを用いた動画フレーム補間
要約

動画フレーム補間(VFI)は、動画の途中フレームを合成することを目的としており、近年の深層畳み込みネットワークの発展により著しい進展を遂げてきた。従来の畳み込みネットワークに基づく手法は、畳み込み演算の局所性のため、大規模な動きを扱う際に課題に直面している。この制約を克服するため、本研究ではTransformerを活用し、動画フレーム間の長距離ピクセル相関をモデル化する新しいフレームワークを提案する。さらに、本ネットワークは新たなクロススケールウィンドウベースのアテンション機構を備えており、異なるスケールのウィンドウ同士が相互に作用する構造を採用している。この設計により、受容fieldが効果的に拡大され、マルチスケールの情報を効果的に統合できる。広範な定量的および定性的な実験結果から、本手法がさまざまなベンチマークにおいて、新たな最先端の性能を達成していることが示された。