8日前

強力で、少量で、かつ優れた手法:ドメイン一般化セマンティックセグメンテーションにおける視覚基盤モデルの活用

Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng
強力で、少量で、かつ優れた手法:ドメイン一般化セマンティックセグメンテーションにおける視覚基盤モデルの活用
要約

本稿では、ドメイン一般化セマンティックセグメンテーション(DGSS)の文脈において、さまざまなビジョン基礎モデル(VFMs)の評価と活用を最初に検討する。より強力な事前学習モデルを活用し、可学習パラメータを最小限に抑えることで、優れた汎化性能を達成するという動機から、本研究では、VFMsをDGSSに効率的に活用するための堅牢なファインチューニング手法、すなわちReinを提案する。Reinは、複数の可学習トークンを用いて構築されており、それぞれが異なるインスタンスに対応している。この構造により、各レイヤーの特徴マップを、バックボーン内の次のレイヤーへと正確に精緻化・伝達することができる。このプロセスにより、1枚の画像内における異なるカテゴリに対して多様な精緻化が実現される。極めて少ない可学習パラメータで済むにもかかわらず、ReinはVFMsをDGSSタスクに効率的にファインチューニングでき、驚くべきことに、すべてのパラメータをファインチューニングする手法を上回る性能を達成する。さまざまな設定における広範な実験により、Reinが最先端の手法を顕著に上回ることが示された。特に注目すべきは、凍結されたバックボーンにわずかに1%の追加可学習パラメータを加えるだけで、CityscapesデータセットにおいてmIoU 78.4%を達成した点である。なお、実装コードは https://github.com/w1oves/Rein.git で公開されている。