
要約
限られた計算リソースで画素単位のラベリングタスクにおける簡潔な推論を達成するため、私たちは深層畳み込みネットワークの各層で空間位置の部分集合を選択的に処理することを学習する \emph{画素単位注意ゲーティング} ユニット (\emph{PAG}) を提案します。PAGは汎用的であり、アーキテクチャに依存せず、問題に特化していないメカニズムであるため、既存のモデルに微調整を行うことで容易に「プラグイン」することができます。PAGは以下の2つの方法で利用されます:1) 多スケールプーリングに関連する追加の計算コストなしでモデル性能を向上させる空間変動プーリングフィールドの学習、および 2) 精度を維持しながら総計算量を削減する各画素に対する動的な計算ポリシーの学習です。私たちはセマンティックセグメンテーション、境界検出、単眼深度推定、表面法線推定などの多様な画素単位ラベリングタスクにおいてPAGを広範囲に評価しました。実験結果から、PAGがこれらのタスクにおいて競合または最先端の性能を達成できることを示しています。さらに、PAGが入力画像に対して動的な空間的な計算割り当てを学習し、関連手法(例:深層モデルの切り詰めや全層の動的スキップ)と比較してより優れた性能トレードオフを提供することも確認しました。一般的には、PAGが精度や性能に顕著な損失なく計算量を10%削減できることを観察しており、より強い計算制約が課された場合でも性能は穏やかに低下することがわかりました。