17日前

FlowFormer：光流用Transformerアーキテクチャ

Zhaoyang Huang, Xiaoyu Shi, Chao Zhang, Qiang Wang, Ka Chun Cheung, Hongwei Qin, Jifeng Dai, Hongsheng Li

要約

我々は、光流（optical flow）の学習を目的としたTransformerベースのニューラルネットワークアーキテクチャである「FlowFormer」を提案する。FlowFormerは、画像ペアから構築された4次元コストボリュームをトークン化し、新たな潜在空間において、交替グループTransformer（Alternate-Group Transformer: AGT）層を用いてコストトークンをコストメモリに符号化する。その後、動的位置コストクエリを用いた再帰的Transformerデコーダにより、このコストメモリをデコードする。Sintelベンチマークにおいて、FlowFormerはクリーンパスおよびファイナルパスでそれぞれ1.159および2.088の平均終点誤差（AEPE）を達成し、既存で最も優れた結果（1.388および2.47）に対して、それぞれ16.5%および15.5%の誤差低減を実現した。さらに、FlowFormerは優れた汎化性能も示している。Sintelデータセット上で訓練を行わずに、Sintelトレーニングセットのクリーンパスにおいても1.01のAEPEを達成し、既存で最も優れた結果（1.29）を21.7%の改善で上回った。