11일 전

DePT: 분리형 프롬프트 튜닝

Ji Zhang, Shihan Wu, Lianli Gao, Heng Tao Shen, Jingkuan Song
DePT: 분리형 프롬프트 튜닝
초록

본 연구는 프롬프트 튜닝에서 발생하는 '기본-신규 과제 간 상충(BNT, Base-New Tradeoff)' 문제를 극복한다. 즉, 튜닝된 모델이 기본(또는 대상) 과제에 대해 더 잘 일반화될수록 신규 과제에 대한 일반화 능력이 악화되고, 반대로 신규 과제에 대한 일반화 능력이 뛰어날수록 기본 과제에 대한 성능이 저하되는 상충 현상을 해결한다. 구체적으로, 기본 과제와 신규 과제의 학습된 특징을 심층적으로 분석한 결과, BNT는 채널 편향(channel bias)에 기인함을 관찰하였다. 즉, 대부분의 특징 채널이 기본 과제에 특화된 지식에 의해 점유되어, 신규 과제에 중요한 작업 공유 지식(task-shared knowledge)이 붕괴되는 현상이 발생한다. 이를 해결하기 위해, 우리는 프롬프트 튜닝 과정에서 기본 과제 특화 지식을 특징 채널에서 분리하여 고립된 특징 공간으로 이동시키는 '분리형 프롬프트 튜닝(DePT, Decoupled Prompt Tuning)' 프레임워크를 제안한다. 이를 통해 원래의 특징 공간에서 작업 공유 지식을 최대한 보존함으로써 신규 과제에 대한 더 우수한 제로샷 일반화 성능을 달성할 수 있다. 특히, 본 DePT는 기존의 프롬프트 튜닝 방법들과 수직적(orthogonal) 관계를 가지므로, 기존 모든 방법들을 개선할 수 있다. 11개 데이터셋에 대한 광범위한 실험을 통해 DePT의 뛰어난 유연성과 효과성을 입증하였다. 코드 및 사전 학습된 모델은 https://github.com/Koorye/DePT 에서 제공된다.

DePT: 분리형 프롬프트 튜닝 | 최신 연구 논문 | HyperAI초신경