16日前

SED:オープンボキャブラリー意味セグメンテーションのためのシンプルなエンコーダデコーダ

Bin Xie, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang
SED:オープンボキャブラリー意味セグメンテーションのためのシンプルなエンコーダデコーダ
要約

オープンボリュームセマンティックセグメンテーションは、カテゴリのオープンセットからピクセルを異なるセマンティックグループに分類することを目指す。既存の大多数の手法は、事前学習された視覚言語モデルを活用するが、その鍵となるのは画像レベルのモデルをピクセルレベルのセグメンテーションタスクに適用することである。本論文では、オープンボリュームセマンティックセグメンテーションを対象としたシンプルなエンコーダデコーダー、すなわちSEDを提案する。SEDは、階層的エンコーダに基づくコストマップ生成と、カテゴリの早期拒否機構を備えた段階的融合デコーダーから構成される。階層的エンコーダに基づくコストマップ生成は、単純なTransformerではなく階層的バックボーンを用いて、ピクセルレベルの画像-テキストコストマップを予測する。単純なTransformerに比べて、階層的バックボーンは局所的な空間情報をより適切に捉えられ、入力サイズに対して線形の計算量で済むという利点を持つ。本手法の段階的融合デコーダーはトップダウン構造を採用し、異なるバックボーンレベルの特徴マップとコストマップを統合してセグメンテーションを行う。推論速度の高速化を図るため、デコーダーの初期層で存在しないカテゴリを早期に排除する「カテゴリの早期拒否機構」を導入した。これにより、精度を損なわずに最大で4.7倍の高速化が実現可能である。複数のオープンボリュームセマンティックセグメンテーションデータセットを用いた実験により、SEDの有効性が実証された。ConvNeXt-Bを用いた場合、ADE20K(150カテゴリ)において1枚あたり82ミリ秒(ms)の推論速度でmIoUスコア31.6%を達成した。本研究のコードは、\url{https://github.com/xb534/SED.git} にて公開予定である。

SED:オープンボキャブラリー意味セグメンテーションのためのシンプルなエンコーダデコーダ | 最新論文 | HyperAI超神経