2달 전
대형 언어 모델을 사용하여 RST 담화 분석에서 유의미한 성공을 얻을 수 있을까요?
Aru Maekawa; Tsutomu Hirao; Hidetaka Kamigaito; Manabu Okumura

초록
최근, 수십억 개의 매개변수를 가진 디코더만을 사용하는 사전 학습 대형 언어 모델(LLMs)이 자연어 처리(NLP) 작업의 다양한 분야에 큰 영향을 미쳤습니다. 단일 인코더 또는 인코더-디코더 구조의 사전 학습 언어 모델이 이미 담화 분석에서 효과적임이 입증되었지만, LLMs가 이 작업을 수행할 수 있는 정도는 여전히 연구 중인 문제입니다. 따라서 본 논문은 이러한 LLMs가 담화 구조 이론(RST) 담화 분석에 얼마나 유용한지 탐구합니다. 여기서 기본적인 위에서 아래(top-down) 전략과 아래에서 위(bottom-up) 전략의 파싱 과정은 LLMs가 처리할 수 있는 프롬프트로 변환됩니다. 우리는 Llama 2를 사용하여 이를 적용하고, 매개변수 조정이 덜 필요한 QLoRA로 미세 조정(fine-tune)하였습니다. RST-DT, Instr-DT, 그리고 GUM 코퍼스라는 세 가지 벤치마크 데이터셋에서의 실험 결과는 700억 개의 매개변수를 가진 Llama 2가 아래에서 위 전략으로 최고 수준(SOTA)의 성능을 크게 뛰어넘었다는 것을 보여주었습니다. 또한, 우리의 파서들은 RST-DT에서 평가될 때 일반화 능력을 보였으며, GUM 코퍼스로 훈련되었음에도 불구하고 RST-DT로 훈련된 기존 파서들과 유사한 성능을 나타냈습니다.