비지도 데이터 증강을 이용한 일관성 훈련

최근 반監督 학습은 라벨된 데이터가 부족한 상황에서 딥러닝 모델의 성능을 향상시키는 데 큰 잠재력을 보여주고 있습니다. 최근 접근 방식 중 많이 사용되는 것은 입력 노이즈에 대해 예측이 불변하도록 하는 대규모 비라벨 데이터에 대한 일관성 훈련입니다. 본 연구에서는 효과적으로 비라벨 샘플에 노이즈를 추가하는 방법에 대한 새로운 관점을 제시하며, 특히 고급 데이터 증강 방법으로 생성된 노이즈의 품질이 반감독 학습에서 중요한 역할을 한다는 주장을 합니다. 단순한 노이즈 연산을 RandAugment 및 역번역과 같은 고급 데이터 증강 방법으로 대체함으로써, 우리의 방법은 동일한 일관성 훈련 프레임워크 하에서 여섯 가지 언어 작업과 세 가지 시각 작업에서 크게 개선되었습니다. IMDb 텍스트 분류 데이터셋에서 20개의 라벨된 샘플만 사용하여 우리의 방법은 오류율 4.20을 달성해 25,000개의 라벨된 샘플로 훈련된 최신 모델을 능가했습니다. 표준적인 반감독 학습 벤치마크인 CIFAR-10에서도 우리의 방법은 이전 모든 접근 방식을 능가하고 250개의 샘플만으로 오류율 5.43을 달성했습니다. 또한 우리의 방법은 전이 학습과도 잘 결합되며, BERT에서 미세 조정(finetuning)할 때와 같이, ImageNet과 같은 고데이터 환경에서도 개선 효과를 나타냅니다. 이는 10%의 라벨된 데이터만 있거나 130만 개의 추가 비라벨 샘플이 있는 완전한 라벨 집합을 사용할 때 모두 적용됩니다. 코드는 https://github.com/google-research/uda 에서 제공됩니다.注:在“半監督”一词中,正确的汉字应该是“반감독”。