11일 전
ViT에서 CNN 학습하기: 도메인 적응을 위한 클래스별 경계를 명시적으로 표현하는 하이브리드 모델
Ba Hung Ngo, Nhat-Tuong Do-Tran, Tuan-Ngoc Nguyen, Hae-Gon Jeon, Tae Jong Choi

초록
대부분의 도메인 적응(DA) 방법은 컨볼루션 신경망(CNNs) 또는 비전 트랜스포머(ViTs)를 기반으로 하며, 인코더로서 두 도메인 간의 분포 차이를 정렬하는 데 초점을 맞추지만, 각 모델 고유의 특성을 고려하지 않는다. 예를 들어, ViT는 전역적 표현을 효과적으로 포착할 수 있는 능력으로 인해 정확도에서 뛰어나지만, CNN은 국소적 표현을 잘 포착하는 데 강점을 지닌다. 이러한 사실을 바탕으로, ViT와 CNN의 각각의 장점을 극대화할 수 있는 하이브리드 방법을 설계하였으며, 이를 '명시적 클래스별 경계(Explicitly Class-specific Boundaries, ECB)'라 명명하였다. ECB는 ViT의 특성을 활용하여 두 분류기의 출력 간 차이를 최대화함으로써 클래스별 결정 경계를 명시적으로 탐지함으로써 원천 데이터 지원 영역에서 벗어난 타겟 샘플을 탐지한다. 반면, CNN 인코더는 이전에 정의된 클래스별 경계를 기반으로 타겟 특징을 군집화하기 위해 두 분류기의 확률 간 차이를 최소화한다. 마지막으로, ViT와 CNN은 상호 지식을 교환함으로써 의사 레이블의 품질을 향상시키고 모델 간 지식 격차를 줄인다. 기존의 DA 방법들과 비교했을 때, ECB는 우수한 성능을 달성하였으며, 이는 본 하이브리드 모델의 효과성을 입증한다. 프로젝트 웹사이트는 https://dotrannhattuong.github.io/ECB/website 에서 확인할 수 있다.