17일 전

지침 작업의 일치가 대규모 언어 모델을 제로샷 관계 추출기로 전환한다

Kai Zhang, Bernal Jiménez Gutiérrez, Yu Su
지침 작업의 일치가 대규모 언어 모델을 제로샷 관계 추출기로 전환한다
초록

최근 연구들은 대규모 지시 따르기(instruction-following) 데이터셋을 기반으로 대규모 언어 모델(LLM)을 미세조정(fine-tuning)할 경우, 특히 제로샷(zero-shot) 설정에서 다양한 자연어 처리(NLP) 과제에 대해 성능이 크게 향상됨을 보여주었다. 그러나 고도로 지시에 맞춰 미세조정된 LLMs는 관계 추출(RE)이라는 기초적인 정보 추출 과제에서는 여전히 소규모 언어 모델(small LMs)에 미치지 못하는 문제가 있다. 우리는 이 현상이 RE가 지시 미세조정 데이터셋에서 극히 드물게 나타나기 때문이라고 가정한다. 실제로 RE는 전체 과제 중 1% 미만을 차지하며(Wang 등, 2022), 이로 인해 LLM이 강력한 RE 능력을 발휘하도록 유도하기 어려운 상황이다. 이러한 제약을 해결하기 위해, 우리는 지시 미세조정 데이터셋에서 주로 사용되는 질의응답(QA) 과제와 관계 추출(RE)을 일치시키는 QA4RE 프레임워크를 제안한다. 두 세트의 지시 미세조정 LLM(총 6개의 LLM)을 대상으로 네 가지 데이터셋에서 실시한 광범위한 제로샷 RE 실험 결과, 본 QA4RE 프레임워크는 LLM의 성능을 일관되게 향상시킴을 입증하였으며, 이는 우리의 가설을 강력하게 뒷받침하며, 강력한 제로샷 기준 모델을 크게 능가하는 성능을 달성할 수 있음을 보여준다. 또한, 본 프레임워크의 강건성(robustness), 소량 샘플(few-shot) 효과성, 그리고 뛰어난 전이 가능성(transferability)을 입증하기 위한 철저한 실험과 논의를 제공한다. 본 연구는 QA와 같은 일반적인 지시 미세조정 과제와 연계함으로써, 도전적이고 대표성이 낮은 과제에 대해 LLM을 효과적으로 적응시키는 유망한 접근법을 제시한다.