11日前
ViT上でCNNを学習する:ドメイン適応のためのクラス固有境界を明示的に扱うハイブリッドモデル
Ba Hung Ngo, Nhat-Tuong Do-Tran, Tuan-Ngoc Nguyen, Hae-Gon Jeon, Tae Jong Choi

要約
多数のドメイン適応(DA)手法は、畳み込みニューラルネットワーク(CNN)またはビジョントランスフォーマー(ViT)に基づいている。これらの手法は、エンコーダとしてドメイン間の分布差を統合するが、それぞれの特徴を十分に考慮していない。例えば、ViTはグローバルな表現を優れた能力で捉えるため、高い精度を発揮する一方で、CNNは局所的な表現を効果的に捉える点で優位性を持つ。この事実を踏まえ、ViTとCNNのそれぞれの強みを最大限に活かすためのハイブリッド手法である「明示的クラス固有境界(Explicitly Class-specific Boundaries: ECB)」を提案する。ECBは、ViTの出力とCNNの出力の差異を最大化することで、ソース領域のサポートから大きく離れたターゲットサンプルを検出するためのクラス固有の決定境界を明示的に探索する。一方で、CNNエンコーダは、事前に定義されたクラス固有境界に基づいてターゲット特徴をクラスタリングするため、両分類器の出力確率間の差異を最小化する。最終的に、ViTとCNNは相互に知識を交換することで、偽ラベルの品質を向上させ、モデル間の知識の乖離を低減する。従来のDA手法と比較して、ECBは優れた性能を達成しており、本ハイブリッドモデルの有効性を実証している。プロジェクトウェブサイトは以下のURLからアクセス可能である:https://dotrannhattuong.github.io/ECB/website。