6ヶ月前

概要

最近の動画インペイント手法は、光流（optical flow）などの明示的なガイド情報を用いることで、フレーム間のピクセルを伝搬させる点で顕著な進展を遂げている。しかし、マスクされた動画領域におけるフレーム間の再現性が得られない状況では、そのような手法が不十分となる。このような場合、他のフレームからピクセルを借用するのではなく、モデルの焦点は逆問題（inverse problem）の解決に移る。本論文では、こうした欠損状況に配慮した二重モダリティ対応型のインペイントフレームワークとして、欠損認識型マスクドトランスフォーマー（Deficiency-aware Masked Transformer, DMT）を提案する。本手法には以下の3つの主な利点がある。第一に、画像インペイントモデル DMT_img を事前学習し、これを動画用モデル DMT_vid の知識蒸留（knowledge distillation）の事前知識（prior）として活用することで、欠損状況下での画像の生成（ハルシネーション）性能が向上する。第二に、自己注意機構（self-attention module）が時空間的トークンを選択的に取り入れることで、推論速度の高速化とノイズ信号の除去を実現する。第三に、シンプルでありながら効果的な受容野コンテキストライザー（Receptive Field Contextualizer）をDMTに統合し、さらなる性能向上を図っている。YouTube-VOSおよびDAVISデータセットを用いた広範な実験の結果、DMT_vidは従来手法を著しく上回ることが確認された。コードおよび動画デモは、github.com/yeates/DMT にて公開されている。

ソースPDF