2ヶ月前

多視点集約ネットワークによる二値画像セグメンテーション

Yu, Qian ; Zhao, Xiaoqi ; Pang, Youwei ; Zhang, Lihe ; Lu, Huchuan
多視点集約ネットワークによる二値画像セグメンテーション
要約

二値画像セグメンテーション(Dichotomous Image Segmentation: DIS)は最近、高解像度の自然画像から高精度な物体セグメンテーションを実現するために注目を集めています。効果的なDISモデルを設計する際の主な課題は、小さな受容野における高解像度目標の意味的分散と、大きな受容野における高精度詳細の損失をどのようにバランスさせるかです。既存の手法では、複数のエンコーダー-デコーダーストリームや段階を用いて、徐々に全体的な位置特定と局所的な精緻化を完了させることに依存しています。人間の視覚システムは、興味のある領域を複数の視点から観察することで捉えます。これをヒントに、我々はDISを多視点物体認識問題としてモデル化し、遠距離視点と近距離視点の特徴融合を単一ストリームで一つのエンコーダー-デコーダー構造に統合する簡潔な多視点集約ネットワーク(Multi-View Aggregation Network: MVANet)を提案しました。提案された多視点補完的位置特定および精緻化モジュールのおかげで、我々のアプローチは複数の視点間で長距離かつ深い視覚的相互作用を確立し、詳細な近距離視点の特徴が非常に細い構造に焦点を当てるようになっています。人気のあるDIS-5Kデータセットでの実験結果によると、我々のMVANetは精度と速度において最先端の手法よりも大幅に優れていることが示されました。ソースコードとデータセットは、\href{https://github.com/qianyu-dlut/MVANet}{MVANet} にて公開されます。

多視点集約ネットワークによる二値画像セグメンテーション | 最新論文 | HyperAI超神経