2달 전

DPCSpell: Bangla 및 자원 부족 인도 언어의 철자 오류 수정을 위한 Transformer 기반 검출-정화-수정 프레임워크

Mehedi Hasan Bijoy; Nahid Hossain; Salekul Islam; Swakkhar Shatabda
DPCSpell: Bangla 및 자원 부족 인도 언어의 철자 오류 수정을 위한 Transformer 기반 검출-정화-수정 프레임워크
초록

맞춤법 오류 교정은 텍스트에서 잘못 쓰인 단어를 식별하고 수정하는 작업입니다. 이는 인간 언어 이해에 대한 다양한 응용 프로그램으로 인해 자연어 처리 분야에서 잠재적이고 활발한 연구 주제입니다. 발음상 또는 시각적으로 유사하지만 의미상으로는 다른 문자들이 있어 어떤 언어에서도 이 작업은 어려운 과제가 됩니다. 이전에는 방글라와 자원이 부족한 인도계 언어의 맞춤법 오류 교정에 규칙 기반, 통계 기반, 그리고 머신 러닝 기반 방법들을 적용하였으나, 우리는 이를 상당히 비효율적이라고 판단하였습니다. 특히, 각 문자의 적절성 여부에 관계없이 모든 문자를 교정하는 머신 러닝 기반 접근 방식은 규칙 기반 및 통계 기반 방법보다 성능이 우수함에도 불구하고 효과적이지 못했습니다. 본 논문에서는 이러한 문제점을 해결하기 위해 노이즈 제거 변환기(denoising transformers)를 기반으로 하는 새로운 감지-정화-교정(Detector-Purificator-Corrector, DPCSpell) 프레임워크를 제안합니다. 또한, 좌우 방향으로 작성되는 언어의 자원 한계 문제를 해결하기 위한 대규모 말뭉치 생성 방법을 소개합니다. 경험적인 결과는 우리의 접근 방식이 이전 최고 수준의 방법론들보다 우수함을 입증하며, 방글라 맞춤법 오류 교정에서 정확 일치(Exact Match, EM) 점수가 94.78%, 정밀도(Precision) 점수가 0.9487, 재현율(Recall) 점수가 0.9478, F1 점수가 0.948, F0.5 점수가 0.9483, 수정된 정확도(Modified Accuracy, MA) 점수가 95.16%를 달성하였습니다. 모델과 말뭉치는 공개적으로 https://tinyurl.com/DPCSpell에서 이용 가능합니다.

DPCSpell: Bangla 및 자원 부족 인도 언어의 철자 오류 수정을 위한 Transformer 기반 검출-정화-수정 프레임워크 | 최신 연구 논문 | HyperAI초신경