11 天前

在ViT上学习CNN:一种混合模型以显式建模类别特定边界用于领域自适应

Ba Hung Ngo, Nhat-Tuong Do-Tran, Tuan-Ngoc Nguyen, Hae-Gon Jeon, Tae Jong Choi
在ViT上学习CNN:一种混合模型以显式建模类别特定边界用于领域自适应
摘要

大多数领域自适应(Domain Adaptation, DA)方法基于卷积神经网络(CNN)或视觉Transformer(ViT)构建,其核心思想是通过编码器对齐不同域之间的分布差异,却未充分考虑两类模型各自独特的特性。例如,ViT凭借其强大的全局表征捕捉能力,在精度方面表现优异;而CNN则在提取局部特征方面具有显著优势。基于这一观察,我们提出了一种混合方法——显式类别特定边界(Explicitly Class-specific Boundaries, ECB),旨在充分融合ViT与CNN的各自优势。ECB通过在ViT框架下学习CNN,实现两种模型优势的互补。具体而言,我们利用ViT的特性,通过最大化两个分类器输出之间的差异性,显式地识别出类别特定的决策边界,从而有效检测远离源域支持区域的目标样本。与此同时,CNN编码器则基于先前确定的类别特定边界,通过最小化两个分类器输出概率之间的差异性,对目标域特征进行聚类。最终,ViT与CNN通过相互交换知识,进一步提升伪标签的质量,并减少两者之间的知识差异。与传统DA方法相比,ECB在多个基准数据集上均取得了更优的性能,验证了该混合模型的有效性。项目主页可访问:https://dotrannhattuong.github.io/ECB/website。

在ViT上学习CNN:一种混合模型以显式建模类别特定边界用于领域自适应 | 最新论文 | HyperAI超神经