2달 전

매개변수 효율적인 NLP 전이 학습

Neil Houlsby; Andrei Giurgiu; Stanislaw Jastrzebski; Bruna Morrone; Quentin de Laroussilhe; Andrea Gesmundo; Mona Attariyan; Sylvain Gelly
매개변수 효율적인 NLP 전이 학습
초록

대형 사전 학습 모델의 미세 조정(fine-tuning)은 자연어 처리(NLP)에서 효과적인 전이 메커니즘입니다. 그러나 다수의 하위 작업(downstream tasks)이 존재할 때, 미세 조정은 매개변수 효율성이 떨어집니다: 각 작업마다 완전히 새로운 모델이 필요합니다. 이를 대체하기 위해, 우리는 어댑터 모듈(adapter modules)을 사용한 전이를 제안합니다. 어댑터 모듈은 소형이고 확장 가능한 모델을 제공하며, 각 작업당 몇 개의 학습 가능한 매개변수만 추가됩니다. 또한 새로운 작업을 추가할 때 이전 작업들을 다시 방문하지 않아도 됩니다. 원래 네트워크의 매개변수는 고정되어 있어 높은 수준의 매개변수 공유가 이루어집니다. 어댑터의 효과성을 입증하기 위해, 최근 제안된 BERT 트랜스포머 모델을 26개의 다양한 텍스트 분류 작업으로 전이시켰습니다. 이 중에는 GLUE 벤치마크도 포함되어 있습니다. 어댑터는 각 작업당 몇 개의 매개변수만 추가하면서 거의 최신 수준(state-of-the-art)의 성능을 달성했습니다. GLUE에서, 우리는 전체 미세 조정(full fine-tuning)에 비해 0.4% 이내의 성능 차이로, 각 작업당 3.6%의 매개변수만 추가하여 성능을 달성했습니다. 반면에, 전체 미세 조정은 각 작업당 100%의 매개변수를 학습합니다.