2ヶ月前

視覚注目予測のための拡張インセプションネットワーク

Sheng Yang; Guosheng Lin; Qiuping Jiang; Weisi Lin
視覚注目予測のための拡張インセプションネットワーク
要約

最近、深層畳み込みニューラルネットワーク(DCNN)の登場により、視覚的注目度予測に関する研究の進歩は著しいものがあります。次の改善に向けた一つの可能性ある方向性は、計算効率の良いモジュールを用いてDCNNアーキテクチャ内で多尺度の注目度影響因子を完全に特徴化することです。本研究では、視覚的注目度予測のためにエンドツーエンドのディラテッドインセプションネットワーク(DINet)を提案しました。このネットワークは、追加パラメータを極めて少量に抑えながら、多尺度のコンテキスト特徴を効果的に捉えることができます。既存のインセプションモジュールが異なるカーネルサイズを持つ並列標準畳み込みを利用しているのに対し、我々が提案するディラテッドインセプションモジュール(DIM)は、異なるディレーションレートを持つ並列ディラテッド畳み込みを使用します。これにより、計算負荷を大幅に削減しつつ、特徴マップ内の受容野の多様性を豊かにすることができます。さらに、線形正規化に基づく確率分布距離指標を損失関数として使用することで、注目度モデルの性能が向上します。これにより、典型的なピクセル単位での回帰問題ではなく、グローバルな注目度推論のために確率分布予測タスクとして注目度予測を定式化することができます。複数の困難な注目度ベンチマークデータセットにおける実験結果は、提案した損失関数を使用したDINetが最高峰の性能を達成し、推論時間が短縮できることを示しています。