7日前

AutoFocusFormer:グリッド外の画像セグメンテーション

Chen Ziwen, Kaushik Patnaik, Shuangfei Zhai, Alvin Wan, Zhile Ren, Alex Schwing, Alex Colburn, Li Fuxin
AutoFocusFormer:グリッド外の画像セグメンテーション
要約

現実世界の画像は、コンテンツ密度が極めて不均一な傾向を持つことがよくある。一部の領域は非常に均一であり、例えば広大な青空のような領域がある一方で、他の領域は多数の小さな物体が散在している。しかし、畳み込み型ディープネットワークで一般的に用いられる連続的なグリッドダウンサンプリング戦略は、すべての領域を同等に扱うため、小さな物体が極めて少ない空間的位置にしか表現されず、セグメンテーションなどのタスクにおいて劣った結果をもたらす。直感的には、ダウンサンプリングの過程で小さな物体を表現するピクセルをできるだけ保持することで、重要な情報を維持できる。この目的を達成するために、本研究では、タスクに最も重要なピクセルを学習によって保持する適応的ダウンサンプリングを実現する、局所アテンション型トランスフォーマー画像認識バックボーン「AutoFocusFormer(AFF)」を提案する。適応的ダウンサンプリングにより、画像面上に不規則に分布するピクセルの集合が生成されるため、従来のグリッド構造を放棄した。代わりに、バランスの取れたクラスタリングモジュールと学習可能な近隣マージモジュールを活用した、新規の点ベース局所アテンションブロックを構築し、最先端のセグメンテーションヘッドの点ベース版に対する表現を効果的に得た。実験の結果、同サイズのベースラインモデルと比較して、本手法であるAutoFocusFormer(AFF)は顕著な性能向上を達成した。

AutoFocusFormer:グリッド外の画像セグメンテーション | 最新論文 | HyperAI超神経