
要約
畳み込み演算と再帰型演算は、いずれも一時点の局所領域を処理する構成要素です。本論文では、長距離依存関係を捉えるための汎用的な構成要素として非局所演算を提案します。コンピュータビジョンにおける古典的な非局所平均法に着想を得て、我々の非局所演算は各位置での応答を全位置の特徴量の重み付き和として計算します。この構成要素は多くのコンピュータビジョンアーキテクチャに組み込むことができます。動画分類タスクにおいて、特別な工夫なしでも、我々の非局所モデルはKineticsおよびCharadesデータセットで現在の競争勝者と同等かそれ以上の性能を示します。静止画像認識においても、我々の非局所モデルはCOCOシリーズのタスクでの物体検出/セグメンテーションや姿勢推定を改善します。コードはhttps://github.com/facebookresearch/video-nonlocal-net で公開されています。