11日前
分離型ワンパスネットワークを用いたオープンボキャブラリーセマンティックセグメンテーション
Cong Han, Yujie Zhong, Dengjie Li, Kai Han, Lin Ma

要約
最近、オープンボリューム語義セグメンテーション問題はますます注目を集めている。現在最も高い性能を発揮する手法は、二ストリームネットワークに基づいている。一方のストリームは候補マスクの生成を担当し、もう一方は事前学習済みの視覚言語モデルを用いてセグメント分類を行う。しかし、従来の二ストリーム手法では、視覚言語モデルに最大100個もの画像クロップを入力する必要があり、処理効率が極めて低いという課題がある。この問題に対処するため、本研究では1枚の入力画像に対して視覚言語モデルを一度しか通さないネットワークを提案する。具体的には、事前学習済みの視覚エンコーダにおけるピクセルブロック埋め込み間の有害な干渉を抑制するため、新たなネットワーク適応手法「ピクセルブロック切断(patch severance)」を提案する。さらに、分類のための空間的により判別力の高い特徴に注目するようネットワークを促進する「分類アンカー学習(classification anchor learning)」を導入する。広範な実験により、提案手法が最先端の手法を上回る優れた性能を発揮するとともに、推論速度は最大7倍高速化することを確認した。コード:https://github.com/CongHan0808/DeOP.git