2달 전

대표성 붕괴를 줄여서 더 나은 미세 조정 수행하기

Armen Aghajanyan; Akshat Shrivastava; Anchit Gupta; Naman Goyal; Luke Zettlemoyer; Sonal Gupta
대표성 붕괴를 줄여서 더 나은 미세 조정 수행하기
초록

기존의 사전 학습된 언어 모델을 fine-tuning하는 방법들이 널리 채택되었음에도 불구하고, 하이퍼파라미터 설정에 따라 불안정하다는 것이 밝혀져 최근에는 신뢰 영역(trust region) 방법에 대한 연구가 이루어지고 있습니다. 본 논문에서는 기존의 적대적 목적함수(adversarial objectives)를 정규분포 또는 균일분포에서 샘플링한 매개변수 노이즈(parametric noise)로 대체하여, 성능 저하 없이 가능한 한 표현 변화를 억제하는 간단하고 효율적인 신뢰 영역 이론에 기반한 방법을 제시합니다. 또한, 특정 최종 작업을 위해 fine-tuning되는 과정에서 사전 학습된 모델들의 일반화 가능한 표현이 악화되는 현상인 표현 붕괴(representational collapse)를 연구하여, 신뢰 영역 방법의 일반적인 사용을 더욱 강력히 뒷받침할 수 있는 새로운 분석을 소개합니다. 광범위한 실험 결과는 우리의 fine-tuning 방법이 DailyMail/CNN, Gigaword, Reddit TIFU 및 GLUE 벤치마크 등 다양한 이해 및 생성 작업에서 이전의 신뢰 영역 방법과 동등하거나 그 이상의 성능을 보임을 입증하며, 동시에 훨씬 더 빠르다는 것을 보여줍니다. 또한, 우리의 방법은 표현 붕괴에 덜 취약하며, 사전 학습된 모델들이 각각 fine-tuning될 때마다 더 일반화 가능한 표현을 유지한다는 것을 증명하였습니다.

대표성 붕괴를 줄여서 더 나은 미세 조정 수행하기 | 최신 연구 논문 | HyperAI초신경