11日前

トランスフォーマーを用いたオブジェクトマスクの発見による教師なしセマンティックセグメンテーション

Wouter Van Gansbeke, Simon Vandenhende, Luc Van Gool
トランスフォーマーを用いたオブジェクトマスクの発見による教師なしセマンティックセグメンテーション
要約

教師なしセマンティックセグメンテーションの課題は、ピクセルを意味的に有意義なグループにクラスタリングすることである。具体的には、同じクラスタに属するピクセルは、オブジェクトや部位のカテゴリといった高レベルの意味的性質を共有すべきである。本論文では、三つの核心的なアイデアに基づく新たなフレームワーク「MaskDistill」を提案する。第一に、オブジェクトマスクを生成するデータ駆動型戦略を提唱する。このマスクは、セマンティックセグメンテーションにおけるピクセルグループ化の事前知識(prior)として機能する。このアプローチにより、特定のシーン構成に特化して設計された手動で作成された事前知識を排除でき、従来の手法が抱える適用範囲の制限を回避する。第二に、MaskDistillは生成されたオブジェクトマスクをクラスタリングし、初期のオブジェクトセグメンテーションモデルのための擬似正解(pseudo-ground-truth)を獲得する。第三に、このモデルを用いて品質の低いオブジェクトマスクをフィルタリングする。この戦略により、ピクセルグループ化の事前知識におけるノイズを低減し、最終的なセグメンテーションモデルの学習に用いるクリーンなマスクの集合を得ることができる。これらの要素を統合することで、PASCALデータセット(mIoU +11%)およびCOCOデータセット(mask AP50 +4%)において、従来の教師なしセマンティックセグメンテーション手法を大きく上回る性能を達成する。興味深いことに、既存のアプローチとは異なり、本フレームワークは低レベルの画像特徴(低レベル画像ヒント)に依存せず、オブジェクト中心のデータセットに限定されない。コードとモデルは公開予定である。

トランスフォーマーを用いたオブジェクトマスクの発見による教師なしセマンティックセグメンテーション | 最新論文 | HyperAI超神経