2ヶ月前

M$^3$Net: 多レベル、混合、および多段階の注目ネットワークによる显著物体検出

Yao Yuan; Pan Gao; XiaoYang Tan
M$^3$Net: 多レベル、混合、および多段階の注目ネットワークによる显著物体検出
要約

既存の注目物体検出方法の多くは、U-Netや特徴ピラミッド構造を使用しており、異なるスケールの特徴マップを単純に集約するだけで、それらの独自性と相互依存性、および最終予測へのそれぞれの貢献度を見落としています。これらの問題を克服するために、我々はM$^3$Net(Multilevel, Mixed and Multistage attention network for Salient Object Detection)を提案します。まず、マルチスケールインタラクションブロックを提案します。このブロックは革新的にクロスアテンション手法を導入し、マルチレベル特徴間の相互作用を実現することで、高レベル特徴が低レベル特徴学習をガイドし、注目領域を強化します。次に、以前のトランスフォーマーに基づくSOD(Salient Object Detection)手法がグローバルセルフアテンションのみを使用して注目領域を特定し、複雑な物体の詳細を見落とすことが避けられないという事実を考えると、ミックスアテンションブロックを提案します。このブロックはグローバルセルフアテンションとウィンドウセルフアテンションを組み合わせることで、グローバルおよび局所レベルでのコンテキストモデリングを目指し、予測マップの精度向上に寄与します。最後に、段階的な最適化を行うためのマルチレベル監督戦略を提案しました。6つの困難なデータセットにおける実験結果から、提案されたM$^3$Netが最近のCNNおよびトランスフォーマーに基づくSOD手法に対して4つの評価指標において優れていることが示されました。コードはhttps://github.com/I2-Multimedia-Lab/M3Net で公開されています。

M$^3$Net: 多レベル、混合、および多段階の注目ネットワークによる显著物体検出 | 最新論文 | HyperAI超神経