
要約
Transformerは、マルチヘッド自己注意機構(MHSA)の導入により、動画処理分野で広く利用されてきた。しかし、MHSA機構は、損傷領域に関連する特徴量が劣化し、正確な自己注意を妨げることから、動画補填(video inpainting)において根本的な課題を抱えている。この問題を「クエリ劣化(query degradation)」と呼ぶ。この課題は、まず光流を補完した後に、その光流を用いて自己注意をガイドする手法により緩和可能であり、この有効性は著者らの前回の研究である「光流ガイド型Transformer(Flow-Guided Transformer, FGT)」で実証されている。本研究では、さらに光流のガイド効果を活用し、より効果的かつ効率的な動画補填を実現するため、FGT++を提案する。まず、局所的集約(local aggregation)とエッジ損失(edge loss)を用いた軽量な光流補完ネットワークを設計した。次に、クエリ劣化の問題に対処するため、運動差異(motion discrepancy)を用いて特徴量を強化する「光流ガイド特徴統合モジュール」と、光流に従って特徴量をワープする「光流ガイド特徴伝播モジュール」を提案した。さらに、Transformerの構造を時間的・空間的次元に沿って分離(decouple)し、時間的に変形可能なMHSA機構を用いて光流に基づいてトークンを選択するとともに、全画面のグローバルトークンと窓内ローカルトークンを「二重視点MHSA機構」により統合することで、より適切な特徴表現を実現した。実験結果から、FGT++は定量的・定性的な評価において、既存の動画補填ネットワークを上回ることが確認された。