11日前

SemiVL:視覚言語ガイダンスを用いた半教師付きセマンティックセグメンテーション

Lukas Hoyer, David Joseph Tan, Muhammad Ferjad Naeem, Luc Van Gool, Federico Tombari
SemiVL:視覚言語ガイダンスを用いた半教師付きセマンティックセグメンテーション
要約

半教師ありセマンティックセグメンテーションにおいて、モデルは限られた数のラベル付き画像と大量のラベルなし画像を用いて学習されることで、高コストなアノテーション作業を削減する。従来の手法は良好なセグメンテーション境界を学習できるものの、限られた教師信号のため、視覚的に類似したクラスを混同する傾向がある。一方、視覚言語モデル(VLM)は、画像-キャプションデータセットから多様な意味的知識を学習可能であるが、画像レベルでの学習に起因してノイズの多いセグメンテーション結果を生成する。本研究では、SemiVLとして、VLMの事前学習から得られる豊富な事前知識を半教師ありセマンティックセグメンテーションに統合することで、より優れた意味的分類境界の学習を実現することを提案する。VLMをグローバルな推論からローカルな推論へ適応させるために、ラベル効率的な学習を実現するための空間的ファインチューニング戦略を導入した。さらに、視覚と言語の両方を統合的に推論できる言語誘導型デコーダを設計した。最後に、クラスラベルに内在する曖昧さを解消するために、クラス定義という形での言語的ガイダンスをモデルに提供するアプローチを提案する。SemiVLは4つのセマンティックセグメンテーションデータセット上で評価され、従来の半教師あり手法を顕著に上回った。具体的には、COCOデータセットにおいて232枚のアノテーション画像を用いた場合、SOTA(最良手法)に対して+13.5 mIoUの向上を達成し、Pascal VOCでは92ラベルで+6.1 mIoUの改善を示した。プロジェクトページ:https://github.com/google-research/semivl

SemiVL:視覚言語ガイダンスを用いた半教師付きセマンティックセグメンテーション | 最新論文 | HyperAI超神経