Few-Shot Parameter-Efficient Fine-Tuning은 In-Context Learning보다 더 우수하고 저렴하다

소수의 예시를 활용한 컨텍스트 학습(few-shot in-context learning, ICL)은 사전 학습된 언어 모델이 예전에 본 적 없는 작업을 그래디언트 기반 학습 없이도 수행할 수 있도록 해준다. 이 방법은 예측을 수행할 때마다 모든 학습 예시를 다시 처리해야 하기 때문에 계산, 메모리, 저장 공간 측면에서 상당한 비용이 발생한다. 반면, 파라미터 효율적인 미세조정(parameter-efficient fine-tuning, PEFT) 기법(예: 어댑터 모듈, 프롬프트 튜닝, 희소 업데이트 방법 등)은 새로운 작업을 수행할 수 있도록 작고 제한된 수의 파라미터만을 학습하는 대안적인 접근 방식을 제시한다. 본 논문에서는 소수의 예시를 활용한 컨텍스트 학습과 PEFT를 철저히 비교하여, 후자가 더 높은 정확도를 보이는 것은 물론 계산 비용을 극적으로 낮춘다는 점을 입증한다. 동시에, 학습된 벡터에 의해 활성화를 스케일링하는 새로운 PEFT 방법인 (IA)$^3$을 제안하며, 매우 적은 수의 추가 파라미터만 도입함에도 불구하고 강력한 성능을 달성함을 보였다. 또한, T0 모델 기반으로 간단한 조리법을 제안한 T-Few를 소개하는데, 이는 작업별 맞춤형 튜닝이나 수정 없이도 새로운 작업에 적용할 수 있다. T-Few의 효과를 RAFT 벤치마크에 적용하여 완전히 새로운 작업에 대해 검증한 결과, 인간을 초월하는 성능을 처음으로 달성하였으며, 기존 최고 수준의 모델보다 6% 이상 뛰어난 성능을 보였다. 본 연구에서 사용된 모든 코드는 공개되어 있으며, 누구나 접근 가능하다.