2ヶ月前

DatUS^2: データ駆動型の教師なし意味分割を用いた事前学習済み自己監督ビジョントランスフォーマー

Sonal Kumar; Arijit Sur; Rashmi Dutta Baruah
DatUS^2: データ駆動型の教師なし意味分割を用いた事前学習済み自己監督ビジョントランスフォーマー
要約

複数の自己監督学習スキームの提案が相次いでおり、普遍的な基盤モデルの開発に一歩近づいています。この過程で、無教師下流タスクは、自己監督学習スキームで学習された視覚特徴量の品質を検証する評価方法の一つとして認識されています。しかし、無教師稠密セマンティックセグメンテーションは下流タスクとして十分に探索されておらず、ビジョントランスフォーマーの自己監督学習中にパッチレベルの特徴表現に導入されるセマンティック情報の利用と評価が可能であると考えられています。そこで本論文では、無教師セマンティックセグメンテーション(DatUS^2)を下流タスクとして新しいデータ駆動型アプローチを提案します。DatUS^2は、視覚的な事前知識や同期データを使用せずに、ラベル付けされていない画像データセットに対して意味的に一貫した稠密な疑似アノテーションセグメンテーションマスクを生成します。私たちはこれらの疑似アノテーションセグメンテーションマスクを真値マスクと比較し、最近の自己監督学習スキームがパッチレベルで共有されるセマンティック特性と区画レベルでの識別可能なセマンティック特性を学習しているかどうかを評価します。最後に、既存の最先端の自己監督学習スキームを私たちが提案した下流タスクであるDatUS^2で評価しました。また、DatUS^2の最良バージョンはSUIMデータセットにおいて15.02% のMiOU(Mean Intersection over Union)と21.47% のピクセル精度で既存の最先端手法を上回り、大規模かつ複雑なCOCOデータセットでも競争力のある精度を達成しています。

DatUS^2: データ駆動型の教師なし意味分割を用いた事前学習済み自己監督ビジョントランスフォーマー | 最新論文 | HyperAI超神経