11일 전

합성 데이터로 훈련된 모델에 대한 우크라이나어 문법 오류 수정을 위한 비교 연구

{Andrii Fedorych, Andrii Shportko, Artem Yushko, Maksym Bondarenko}
합성 데이터로 훈련된 모델에 대한 우크라이나어 문법 오류 수정을 위한 비교 연구
초록

문법 오류 수정(Grammatical Error Correction, GEC) 작업은 영어에 대해 광범위하게 연구되어 왔다. 그러나 저자원 언어인 우크라이나어에 대한 적용은 여전히 해결되지 않은 과제로 남아 있다. 본 논문에서는 우크라이나어를 위한 시퀀스 태깅 모델과 신경 기계 번역(Neural Machine Translation, NMT) 모델을 개발하고, 이러한 시스템을 보완하기 위한 알고리즘 기반의 수정 규칙 세트도 제안한다. 또한, 인간이 작성한 것처럼 자연스러운 오류를 생성하기 위해 우크라이나어용 합성 데이터 생성 기술을 개발하였다. 마지막으로, 기존의 UA-GEC 코퍼스를 보강하기 위해 합성된 데이터의 최적 조합을 도출하였으며, 새로 설정된 UA-GEC 벤치마크에서 0.663의 F₀.₅ 점수를 기록하여 최신 기술 수준의 성능을 달성하였다. 코드 및 훈련된 모델은 GitHub 및 HuggingFace에서 공개될 예정이다.

합성 데이터로 훈련된 모델에 대한 우크라이나어 문법 오류 수정을 위한 비교 연구 | 최신 연구 논문 | HyperAI초신경