3달 전
자연어 이해 및 생성을 위한 간단하지만 이기기 어려운 데이터 증강 접근법
Dinghan Shen, Mingzhi Zheng, Yelong Shen, Yanru Qu, Weizhu Chen

초록
적대적 훈련은 학습된 표현에 더 강한 일반화 능력을 부여하는 데 효과적임이 입증되었다. 그러나 일반적으로 주입되는 교란 방향을 결정하기 위해 높은 계산 비용이 필요하다는 점이 문제로 지적된다. 본 논문에서는 입력 문장 내 일부 정보를 제거하여 제한된 시야를 생성하는 간단하면서도 효과적인 데이터 증강 전략인 '컷오프(cutoff)'를 제안한다. 이 과정은 훈련 단계에서의 미세 조정(fine-tuning) 중에 수행되며, 단순한 확률적 샘플링에 의존하므로 계산 부담이 거의 추가되지 않는다. 또한, 제안된 증강 샘플들을 체계적인 방식으로 훈련 목표에 통합하기 위해 제닝-쇼난 엔트로피 분산 일관성 손실(Jensen-Shannon Divergence consistency loss)을 추가로 활용한다. 제안된 전략의 효과를 검증하기 위해, 자연어 이해와 생성 문제에 모두 컷오프를 적용하였다. GLUE 벤치마크에서 컷오프는 간단한 구조임에도 불구하고 여러 경쟁적인 적대적 기반 접근법과 비교해 동등하거나 더 우수한 성능을 보였다. 또한, 컷오프를 기계 번역에 확장한 결과, Transformer Base 모델 기준으로 BLEU 점수에서 두드러진 향상이 관찰되었다. 더불어 컷오프는 적대적 훈련을 일관되게 능가하며, IWSLT2014 독일어-영어 데이터셋에서 최고 수준의 성능을 달성하였다.