11日前

オープンボリューム意味セグメンテーションのためのサイドアダプターネットワーク

Mengde Xu, Zheng Zhang, Fangyun Wei, Han Hu, Xiang Bai
オープンボリューム意味セグメンテーションのためのサイドアダプターネットワーク
要約

本稿では、事前学習済みの視覚言語モデルを活用したオープンボリュームセマンティックセグメンテーションのための新規フレームワーク、Side Adapter Network(SAN)を提案する。本手法は、セマンティックセグメンテーションタスクを領域認識問題として定式化する。固定されたCLIPモデルに、二本のブランチを持つ補助ネットワーク(サイドネットワーク)を接続する。一方のブランチはマスク提案の予測を行い、他方のブランチは、CLIPモデル内でマスクのクラスを認識するために適用されるアテンションバイアスを予測する。この分離型設計により、CLIPモデルがマスク提案のクラスをより正確に認識できるようになる。また、接続されたサイドネットワークはCLIPの特徴量を再利用できるため、非常に軽量な構成となる。さらに、全体のネットワークをエンドツーエンドで学習可能であり、サイドネットワークが固定されたCLIPモデルに適応できるため、予測されるマスク提案はCLIPに適応した性質を持つ。本手法は高速かつ高精度であり、追加の学習可能なパラメータはわずかにしか増加しない。複数のセマンティックセグメンテーションベンチマークにおいて本手法を評価した結果、他の手法と比較して顕著に優れた性能を示し、学習可能なパラメータが最大で18分の1に削減され、推論速度が最大で19倍高速化された。本研究のアプローチが、オープンボリュームセマンティックセグメンテーション分野における堅実なベースラインとして機能し、今後の研究を促進することを期待する。コードはhttps://github.com/MendelXu/SANにて公開される予定である。

オープンボリューム意味セグメンテーションのためのサイドアダプターネットワーク | 最新論文 | HyperAI超神経