2ヶ月前
Max Pooling with Vision Transformers は、弱い教師ありセマンティックセグメンテーションにおいてクラスと形状の両立を実現します。
Simone Rossetti; Damiano Zappia; Marta Sanzari; Marco Schaerf; Fiora Pirri

要約
弱教師付きセマンティックセグメンテーション(WSSS)の研究では、画像クラスラベルのみを教師データとして用いる条件下で、一般的なパイプラインであるCNNとクラス活性化マップ(CAM)と改良手法の組み合わせを改善する多くの方向性が探られてきました。完全教師付き手法との差は縮小しましたが、このフレームワーク内でさらなる改善は難しいと考えられています。一方で、ビジョントランスフォーマー(ViT)に基づくWSSS手法においては、CAMに対する有効な代替案がまだ十分に探索されていません。ViTの特徴量は自己教師あり学習においてシーンレイアウトやオブジェクト境界を保持することが示されています。これらの知見を確認するために、我々はトランスフォーマーにおける自己教師あり手法の利点が、パッチ特徴量を活用してピクセルラベル確率とクラス確率の交渉を行うGlobal Max Pooling(GMP)によってさらに強化されることを証明します。本研究では、CAMに依存しない新しいWSSS手法であるViT-PCM(ViT パッチ-クラスマッピング)を提案します。提示されたエンドツーエンドネットワークは単一の最適化プロセスで学習し、セグメンテーションマスクの形状改良と適切な位置特定を行います。我々のモデルは基準となる疑似マスク(BPM)において優れた性能を発揮し、PascalVOC 2012 valセットで69.3%のmIoUを達成しました。また、他のすべてのアプローチよりも高い精度を得ているにもかかわらず、最も少ないパラメータ数を持つことを示しています。つまり、本手法の定量的および定性的結果から、ViT-PCMはCNN-CAMベースのアーキテクチャにとって優れた代替手段であることが明らかになりました。