17일 전

언어 모델에 수치적 추론 능력 주입하기

Mor Geva, Ankit Gupta, Jonathan Berant
언어 모델에 수치적 추론 능력 주입하기
초록

대규모 사전 훈련된 언어 모델(LM)은 상당한 양의 언어 정보를 인코딩하고 있다는 것이 잘 알려져 있다. 그러나 수치적 추론과 같은 고급 추론 능력은 언어 모델링 목표만으로는 학습하기 어렵다. 따라서 기존의 수치 추론 모델들은 제한된 유연성을 가진 전용 아키텍처를 사용해왔다. 본 연구에서는 수치적 추론이 자동 데이터 생성에 적합함을 보이며, 대량의 데이터를 생성하고 다중 작업 훈련 설정에서 모델을 훈련함으로써 사전 훈련된 LM에 이 능력을 주입할 수 있음을 제시한다. 우리는 GenBERT라는 모델을 이러한 데이터로 사전 훈련함으로써 DROP 데이터셋에서 성능이 크게 향상됨(49.3 → 72.3 F1)을 확인하였으며, 크기가 유사한 최신 모델 수준의 성능을 달성하였다. 이는 단순하고 일반적인 인코더-디코더 아키텍처를 사용함에도 불구하고 가능했다. 또한 GenBERT는 수학적 단어 문제 데이터셋에 대해 우수한 일반화 능력을 보이며, 표준 추론 작업(RC)에서도 높은 성능을 유지한다. 본 연구의 접근법은 해당 능력이 자동 데이터 증강에 적합한 경우, 대규모 사전 훈련된 LM에 다양한 능력을 주입하는 일반적인 전략을 제공한다.

언어 모델에 수치적 추론 능력 주입하기 | 최신 연구 논문 | HyperAI초신경