CRAFT:ロバストな光学フロー向けのクロスアテンションフローアーキテクチャTransformer

光流推定は、2枚の画像間の対応する画素を特定することで2次元の運動場を求めるものである。ディープラーニングに基づく光流推定手法は著しい進展を遂げているものの、運動ブラーを伴う大規模な変位を正確に推定することは依然として困難である。その主な理由は、画素マッチングの基盤となる相関ボリュームが、2枚の画像の畳み込み特徴量のドット積によって計算されるためである。畳み込み特徴量の局所性により、計算された相関は様々なノイズに影響を受けやすくなる。特に運動ブラーを伴う大規模な変位では、ノイズの影響を受けた相関が光流推定に深刻な誤差をもたらす。この課題を克服するために、本研究では「CRoss-Attentional Flow Transformer(CRAFT)」と呼ばれる新しいアーキテクチャを提案する。CRAFTは、相関ボリュームの計算を刷新することを目的としている。CRAFTでは、1フレームの特徴量を「意味的平滑化Transformer(Semantic Smoothing Transformer)」層で変換し、よりグローバルで意味的に安定した表現にすることで、相関計算の質を向上させる。さらに、従来のドット積による相関をTransformerのクロスフレームアテンション(Cross-Frame Attention)で置き換える。この層はQueryとKeyの投影を通じて特徴量のノイズをフィルタリングし、より正確な相関を計算する。Sintel(Final)およびKITTI(前景)のベンチマークにおいて、CRAFTは新たな最先端性能を達成した。また、異なるモデルの大型運動に対するロバスト性を検証するため、入力画像をシフトして人工的な大規模運動を生成する「画像シフト攻撃(image shifting attack)」を設計した。この攻撃条件下において、CRAFTは代表的な手法であるRAFTおよびGMAと比較して、はるかに優れたロバスト性を示した。CRAFTのコードは、https://github.com/askerlee/craft にて公開されている。