15일 전

효율적이고 해석 가능한 Mixture of Experts를 활용한 문법 오류 수정

Muhammad Reza Qorib, Alham Fikri Aji, Hwee Tou Ng
효율적이고 해석 가능한 Mixture of Experts를 활용한 문법 오류 수정
초록

오류 유형 정보는 문법 오류 수정(GEC) 모델의 성능을 향상시키는 데 널리 활용되어 왔으며, 보정 결과 생성, 보정 후 재순위 매기기, 또는 GEC 모델의 결합 등 다양한 목적에 사용된다. 서로 다른 오류 유형에 대해 보완적인 강점을 지닌 GEC 모델들을 결합하는 것은 보다 우수한 보정 결과를 도출하는 데 매우 효과적이다. 그러나 시스템 결합은 기저 모델에 대한 추론을 수행한 후에야 결합 방법을 실행할 수 있어 높은 계산 비용을 수반한다. 따라서 서로 다른 오류 유형을 전문적으로 수정할 수 있는 다수의 하위 네트워크를 갖춘 단일 모델을 사용하는 것이 더 효율적일 것이다. 본 논문에서는 문법 오류 수정을 위한 전문가의 혼합 모델(MoECE)을 제안한다. 제안한 모델은 T5-XL의 성능을 달성하면서도 유효 파라미터 수를 세 배 이상 줄였다. 또한 추론 과정에서 오류 유형을 동시에 식별함으로써 보정 결과의 해석 가능성을 높였다.

효율적이고 해석 가능한 Mixture of Experts를 활용한 문법 오류 수정 | 최신 연구 논문 | HyperAI초신경