
要約
高品質なビデオインペイントは、ビデオフレーム内の欠損領域を補完する有望だが困難な課題である。最先端の手法では、注意モデルを採用し、参照フレームから欠損コンテンツを探して1つのフレームを補完し、さらに1フレームずつ全体のビデオを完成させる。しかし、これらの手法は空間次元と時間次元にわたる一貫性のない注意結果に悩まされることがあり、しばしばビデオにおいてぼけや時間的なアーティファクトが発生する。本論文では、ビデオインペイントのために空間・時間変換器ネットワーク(STTN: Spatial-Temporal Transformer Network)の共同学習を提案する。具体的には、自己注意によってすべての入力フレームの欠損領域を同時に埋めることを目指し、STTNの最適化には空間・時間敵対的損失を使用することを提案する。提案モデルの優位性を示すために、標準的な静止マスクとより現実的な動的物体マスクを使用して定量評価と定性評価を行った。デモビデオは https://github.com/researchmm/STTN で利用可能である。