16일 전

대규모 시퀀스 태거의 앙상블 및 지식 증류를 통한 문법 오류 수정

Maksym Tarnavskyi, Artem Chernodub, Kostiantyn Omelianchuk
대규모 시퀀스 태거의 앙상블 및 지식 증류를 통한 문법 오류 수정
초록

본 논문에서는 대규모 구성의 최신 트랜스포머 기반 인코더들을 활용한 GEC(sequence tagging) 아키텍처의 개선점을 탐구한다. 특히, 구간 수준의 수정(edit)에 대해 다수결(majority vote) 방식으로 모델을 앙상블하는 접근을 장려한다. 이 방법은 모델 아키텍처나 어휘 크기의 차이에 대해 높은 내성성을 가지므로 유리하다. 제안한 최적의 앙상블 모델은 합성 데이터셋에 대한 사전 훈련 없이도 BEA-2019(test) 평가에서 $F_{0.5}$ 점수 76.05를 기록하며 새로운 SOTA(SoTA, State-of-the-Art) 성능을 달성하였다. 또한, 훈련된 앙상블 모델을 활용한 지식 증류(knowledge distillation)를 통해 새로운 합성 훈련 데이터셋인 "Troy-Blogs"와 "Troy-1BW"를 생성하였다. 생성된 Troy 데이터셋에 사전 훈련된 최적의 단일 sequence tagging 모델은 공개된 합성 데이터셋인 PIE 데이터셋과 결합하여 거의 SOTA 성능을 달성한다(지금까지 알려진 바에 따르면, 우리 최적의 단일 모델은 $F_{0.5}$ 점수 73.21로 BEA-2019(test)에서 훨씬 더 무거운 T5 모델 성능을 제외하고는 유일하게 뒤지지 않는다). 본 연구의 코드, 데이터셋 및 훈련된 모델은 모두 공개되어 있다.

대규모 시퀀스 태거의 앙상블 및 지식 증류를 통한 문법 오류 수정 | 최신 연구 논문 | HyperAI초신경