2ヶ月前
視覚的注目予測のためのコンテクストエンコーダーデコーダーネットワーク
Alexander Kroner; Mario Senden; Kurt Driessens; Rainer Goebel

要約
自然画像における注目領域の予測には、シーンに存在する物体の検出が必要である。この困難な課題に対する堅牢な表現を構築するためには、複数の空間スケールでの高レベル視覚特徴を抽出し、文脈情報と組み合わせる必要がある。しかし、現存するヒトの視点マップを説明することを目指したモデルは、このようなメカニズムを明示的に組み込んでいない。本稿では、大規模画像分類タスクで事前学習された畳み込みニューラルネットワークに基づくアプローチを提案する。このアーキテクチャはエンコーダー-デコーダー構造を持ち、異なる拡張率を持つ複数の畳み込み層を含むモジュールにより並列に多スケール特徴を捉える。さらに、得られた表現を全体的なシーン情報と組み合わせることで視覚的注目度を正確に予測する。我々のモデルは2つの公開サリエンシーベンチマークにおいて複数の評価指標で競争力のある一貫した結果を達成しており、5つのデータセットおよび選択された例において提案手法の有効性を示している。最先端の手法と比較して、ネットワークは軽量な画像分類バックボーンに基づいており、そのため計算資源が限られているアプリケーション(例えば(仮想)ロボットシステム)において複雑な自然シーンでのヒトの視点を見積もるのに適した選択肢となる。注:「(virtual) robotic systems」については、「(仮想)ロボットシステム」と訳しましたが、「バーチャルロボットシステム」でも可です。また、「saliency benchmarks」は一般的に「サリエンシーベンチマーク」と訳しますが、「注目度ベンチマーク」としても理解できます。