2ヶ月前

強くてシンプル:CLIPベースの転移学習によるドメイン一般化された密集認識の基線

Christoph Hümmer; Manuel Schwonberg; Liangwei Zhou; Hu Cao; Alois Knoll; Hanno Gottschalk
強くてシンプル:CLIPベースの転移学習によるドメイン一般化された密集認識の基線
要約

ドメイン汎化(Domain Generalization: DG)は、深層ニューラルネットワーク(Deep Neural Networks: DNNs)を基にした認識において依然として重要な課題であり、合成データ、照明、天候、または場所の変化によりドメインシフトが発生します。ビジョン言語モデル(Vision-Language Models: VLMs)は、汎化能力の向上に大きな進歩をもたらし、すでに様々なタスクに応用されています。最近では、初めてVLMsを用いてドメイン汎化されたセグメンテーションと物体検出を行い、強力な汎化性能を得ることに成功しました。しかし、これらのアプローチは複雑なモジュール、特徴量拡張フレームワーク、または追加のモデルに依存しています。驚くことに、それとは対照的に私たちは単純なファインチューニングによってビジョン言語事前学習モデルから競争力のある、あるいはより強い汎化結果を得られることがわかりました。この方法は非常に簡単な適用が可能です。さらに、ビジョン言語事前学習が一貫してビジョンのみの事前学習よりも優れた汎化性能を提供することを見出しました。これはImageNetベースの転移学習を使用する標準的な手法に対する挑戦となっています。合成GTA5データセットで訓練することで、ビジョン言語事前学習モデルの完全ファインチューニングはドメイン汎化的最先端(State-of-the-Art: SOTA)に達することが可能であることを示しました。また、新しい合成から実際のベンチマークでの物体検出についてもこの観察を確認しています。さらに、人気のあるCityscapes-to-ACDCベンチマークで77.9%のmIoU(Mean Intersection over Union)を達成し、優れた汎化能力を得ました。また、ドメイン内の汎化性能も改善され、Cityscapesテストセットで86.4%のmIoUという新たなSOTAを達成し、リーダーボードで1位となりました。

強くてシンプル:CLIPベースの転移学習によるドメイン一般化された密集認識の基線 | 最新論文 | HyperAI超神経