11日前

WeakTr:弱教師付きセマンティックセグメンテーションにおけるシンプルなビジョンTransformerの探索

Lianghui Zhu, Yingyue Li, Jiemin Fang, Yan Liu, Hao Xin, Wenyu Liu, Xinggang Wang
WeakTr:弱教師付きセマンティックセグメンテーションにおけるシンプルなビジョンTransformerの探索
要約

本稿では、弱教師付きセマンティックセグメンテーション(WSSS)におけるシンプルなVision Transformer(ViT)の特性について検討する。分類ネットワークの理解およびWSSSの実行において、クラス活性マップ(CAM)は極めて重要な役割を果たす。我々は、ViTの異なるアテンションヘッドが画像の異なる領域に注目していることに着目した。この観察に基づき、アテンションヘッドの重要度をエンドツーエンドで推定する新たな重みベースの手法を提案する。同時に、自己アテンションマップを適応的に統合することで、より完全な物体領域を含む高品質なCAM結果を得ることを実現した。さらに、CAMの結果を用いてオンライン再学習を行うためのViTに基づく勾配クリッピングデコーダーも提案する。このシンプルなTransformerベースの弱教師付き学習フレームワークを「WeakTr」と命名する。本手法は標準的なベンチマークにおいて最先端のWSSS性能を達成しており、PASCAL VOC 2012の検証セットにおいて78.4%のmIoU、COCO 2014の検証セットにおいて50.3%のmIoUを実現した。コードは https://github.com/hustvl/WeakTr で公開されている。

WeakTr:弱教師付きセマンティックセグメンテーションにおけるシンプルなビジョンTransformerの探索 | 最新論文 | HyperAI超神経