11日前

不一致な分類体系におけるVLMを用いたクロスドメイン意味セグメンテーション

Jeongkee Lim, Yusung Kim
不一致な分類体系におけるVLMを用いたクロスドメイン意味セグメンテーション
要約

教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)における意味的セグメンテーションの課題は、ソース画像とターゲット画像間のドメインシフトに加えて、ドメイン間におけるクラス階層構造(taxonomy)の不一致にも起因する。従来のUDA研究は、ソースドメインとターゲットドメインの間でクラス階層が一貫していることを前提としており、この仮定により、ターゲットドメインのクラス階層を認識・適応する能力に制限が生じている。本論文では、視覚言語モデル(Vision Language Models, VLMs)を活用した、不一致なクラス階層を有するドメイン間における意味的セグメンテーションを実現する新規アプローチ「Cross-Domain Semantic Segmentation on Inconsistent Taxonomy using Vision Language Models(CSI)」を提案する。CSIは、ソースとターゲット間のクラスマッチングが不一致である状況下でも、ドメイン適応型の意味的セグメンテーションを効果的に実行できる。本手法は、従来のUDA手法によって得られるセグメント推論と、VLMに内包された豊富な意味的知識を統合し、ターゲットドメインにおける新規クラスを再ラベル化する。これにより、ターゲットドメインの真のラベル(ground truth)を一切必要とせずに、拡張されたクラス階層への効果的な適応が可能となる。提案手法は、粗い階層から細かい階層への変換(coarse-to-fine taxonomy)やオープンなクラス構造(open taxonomy)といった不一致階層設定において、さまざまなベンチマークで有効性を示しており、従来の最先端UDA手法と統合した場合にも一貫した相乗効果を発揮することが確認された。実装コードは、http://github.com/jkee58/CSI にて公開されている。

不一致な分類体系におけるVLMを用いたクロスドメイン意味セグメンテーション | 最新論文 | HyperAI超神経