16일 전

DiffAug: 도메인 지식이 없는 확산 기반 데이터 증강을 통한 비지도 대조 학습 향상

Zelin Zang, Hao Luo, Kai Wang, Panpan Zhang, Fan Wang, Stan.Z Li, Yang You
DiffAug: 도메인 지식이 없는 확산 기반 데이터 증강을 통한 비지도 대조 학습 향상
초록

비지도 대비 학습(unsupervised contrastive learning)은 비전 및 생물학 분야에서 주목받고 있으며, 사전 정의된 긍정 샘플과 부정 샘플을 활용하여 표현 학습을 수행한다. 데이터 증강(data augmentation)은 수동 설계된 방법과 모델 기반 방법으로 분류되며, 대비 학습의 성능을 향상시키는 핵심 요소로 여겨지고 있다. 그러나 수동 설계된 방법은 도메인 특화된 데이터에 대한 인간의 전문 지식을 요구하며, 때로는 데이터의 의미를 왜곡할 수 있다. 반면 모델 기반의 생성적 접근법은 보통 지도 학습 또는 대규모 외부 데이터를 필요로 하여, 많은 분야에서 모델 학습의 성능을 제한하는 걸림돌이 되고 있다. 위와 같은 문제를 해결하기 위해 본 논문은 확산 모델 기반의 긍정 샘플 생성을 통한 새로운 비지도 대비 학습 기법인 DiffAug를 제안한다. DiffAug는 의미 인코더(semantic encoder)와 조건부 확산 모델(conditional diffusion model)로 구성되며, 조건부 확산 모델은 의미 인코딩을 기반으로 새로운 긍정 샘플을 생성하여 비지도 대비 학습의 학습에 활용한다. 의미 인코더와 확산 모델 간의 반복적 학습을 통해 DiffAug는 지속적이고 비지도 방식으로 표현 능력을 향상시킨다. 실험 평가 결과, DiffAug는 DNA 서열, 시각 데이터 및 생물학적 특성 데이터셋에서 수동 설계된 방법과 최신 모델 기반 증강 기법들을 모두 초월하는 성능을 보였다. 검토용 코드는 \url{https://github.com/zangzelin/code_diffaug}에서 공개되었다.

DiffAug: 도메인 지식이 없는 확산 기반 데이터 증강을 통한 비지도 대조 학습 향상 | 최신 연구 논문 | HyperAI초신경