15일 전
효율적이고 해석 가능한 Mixture of Experts를 활용한 문법 오류 수정
Muhammad Reza Qorib, Alham Fikri Aji, Hwee Tou Ng

초록
오류 유형 정보는 문법 오류 수정(GEC) 모델의 성능을 향상시키는 데 널리 활용되어 왔으며, 보정 결과 생성, 보정 후 재순위 매기기, 또는 GEC 모델의 결합 등 다양한 목적에 사용된다. 서로 다른 오류 유형에 대해 보완적인 강점을 지닌 GEC 모델들을 결합하는 것은 보다 우수한 보정 결과를 도출하는 데 매우 효과적이다. 그러나 시스템 결합은 기저 모델에 대한 추론을 수행한 후에야 결합 방법을 실행할 수 있어 높은 계산 비용을 수반한다. 따라서 서로 다른 오류 유형을 전문적으로 수정할 수 있는 다수의 하위 네트워크를 갖춘 단일 모델을 사용하는 것이 더 효율적일 것이다. 본 논문에서는 문법 오류 수정을 위한 전문가의 혼합 모델(MoECE)을 제안한다. 제안한 모델은 T5-XL의 성능을 달성하면서도 유효 파라미터 수를 세 배 이상 줄였다. 또한 추론 과정에서 오류 유형을 동시에 식별함으로써 보정 결과의 해석 가능성을 높였다.