
要約
多くのコンピュータビジョンのタスクにおいて、入力画像の回転に対する出力の特定の振る舞いが期待されます。この関係性を他の変動と同様に扱うのではなく、明示的に符号化することで問題の複雑さが減少し、必要なモデルのサイズも削減されます。本論文では、回転等方性、不変性および共変性を符号化する畳み込みニューラルネットワーク(CNN)アーキテクチャであるRotation Equivariant Vector Field Networks (RotEqNet)を提案します。各畳み込みフィルターは複数の向きで適用され、各空間位置における最高スコアの向きを表すベクトル場を返します。この表現に基づいて深層アーキテクチャを得るために修正された畳み込み演算子を開発しました。私たちはRotEqNetを、入力画像の回転に対して異なる応答が必要ないくつかの問題にテストしました:画像分類、バイオメディカル画像セグメンテーション、方向推定およびパッチマッチング。すべての場合において、RotEqNetはパラメータ数で非常にコンパクトなモデルを提供し、その結果は桁違いに大きなネットワークと同等であることを示しています。