11일 전

자유로운 변환기 모델: 특정 작업을 위한 컨텍스트 할당은 사전 훈련된 LLM을 미세 조정하지 않고도 일반화 성능을 향상시킬 수 있다

Stepan Tytarenko, Mohammad Ruhul Amin
자유로운 변환기 모델: 특정 작업을 위한 컨텍스트 할당은 사전 훈련된 LLM을 미세 조정하지 않고도 일반화 성능을 향상시킬 수 있다
초록

대규모 사전 훈련된 언어 모델(Large Pre-trained Language Models, LLMs)을 특정 데이터셋에 대해 토닝(fine-tuning)하는 것은 자연어 처리(Natural Language Processing, NLP) 분류 과제에서 흔히 사용되는 전략이다. 그러나 이 방법은 모델의 일반화 능력을 저하시키는 경향이 있다. 본 논문에서는 태스크 특화된 컨텍스트 할당(context attribution)을 활용함으로써 일반화 능력을 유지하면서도 하류 태스크 성능을 향상시킬 수 있는 프레임워크를 제안한다. 본 연구에서는 어떠한 트랜스포머 모델의 텍스트 표현에 태스크 특화 개념 연산자(task-specific concept operator)를 선형 변환하여 잠재 개념 공간(latent concept space)에 투영하는 과정이 가능함을 보이며, 이를 본 논문에서 ‘컨텍스트 할당’이라고 명명한다. 특정 개념 연산자는 지도 학습 단계에서 새로운 손실 함수를 통해 최적화된다. 제안된 프레임워크는 각 태스크 목적에 대해 텍스트 표현의 컨텍스트 할당을 수행함으로써 분류기(discriminator)의 표현 능력을 강화하고, 결과적으로 분류 과제에서 더 우수한 성능을 달성함을 입증한다. HateXplain, IMDB 리뷰, Social Media Attributions 세 가지 데이터셋에서의 실험 결과는 제안된 모델이 뛰어난 정확도와 일반화 능력을 보임을 보여준다. 구체적으로, HateXplain 데이터셋에서 비-토닝된 BERT 모델의 경우 정확도가 8% 향상되고 F1 점수가 10% 개선됨을 관찰하였다. IMDB 데이터셋에서는 최신 기준의 토닝된 XLNet 모델보다 정확도와 F1 점수 모두 1% 향상되었다. 또한, 도메인 외부로의 교차 데이터셋 테스트에서는 IMDB 데이터셋에서 토닝된 DistilBERT와 본 모델을 결합한 경우 HateXplain 데이터셋의 F1 점수가 7% 향상되었다. 유튜브 댓글을 포함한 Social Media Attributions 데이터셋에서는 F1 지표가 5.2% 증가하는 효과를 확인하였다. 제안된 프레임워크는 PyTorch로 구현되었으며, GitHub를 통해 오픈소스로 공개되었다.

자유로운 변환기 모델: 특정 작업을 위한 컨텍스트 할당은 사전 훈련된 LLM을 미세 조정하지 않고도 일반화 성능을 향상시킬 수 있다 | 최신 연구 논문 | HyperAI초신경