14일 전

한자 표현의 한계 극복: 획 순서 모델링을 활용한 신경 기계 번역

Zhijun Wang, Xuebo Liu, Min Zhang
한자 표현의 한계 극복: 획 순서 모델링을 활용한 신경 기계 번역
초록

기존 연구는 일반적으로 한자(중국어 문자)를 표현의 최소 단위로 간주한다. 그러나 이러한 중국어 문자 표현 방식은 두 가지 주요 한계에 직면한다. 첫째, 학습 한계(Learning bottleneck): 문자 내부에 내재된 풍부한 특징(예: 부수 및 획)을 활용할 수 없어 학습 효율성이 저하된다. 둘째, 파라미터 한계(Parameter bottleneck): 각 개별 문자가 고유의 벡터로 표현되어야 하므로 모델의 파라미터 수가 급격히 증가한다. 본 논문에서는 이러한 한계를 극복하기 위해 새로운 중국어 문자 표현 방법인 StrokeNet을 제안한다. StrokeNet은 중국어 문자를 라틴 문자로 변환된 획 순서(sequence)로 표현하는 방식으로, 예를 들어 "ao1 (오목)"을 "ajaie", "tu1 (볼록)"을 "aeaqe"로 변환한다. 구체적으로 StrokeNet은 각 획을 특정한 라틴 문자로 매핑함으로써 유사한 중국어 문자가 유사한 라틴 문자 표현을 가지도록 한다. 이와 같은 StrokeNet을 신경망 기반 기계 번역(NMT)에 도입함으로써, 비라틴어 언어에 적용이 어려웠던 강력한 기법들(예: 공유 서브워드 사전 학습, 암호 기반 데이터 증강 등)을 이제 완벽하게 구현할 수 있게 되었다. NIST 중국-영어, WMT17 중국-영어, IWSLT17 일본-영어 등 널리 사용되는 NMT 작업들에 대한 실험 결과, StrokeNet은 더 적은 모델 파라미터로도 강력한 기준 모델보다 뚜렷한 성능 향상을 제공함을 확인하였으며, 특히 WMT17 중국-영어 작업에서 26.5의 BLEU 점수를 달성하여 단일 언어 데이터를 사용하지 않은 이전 보고된 모든 결과보다 우수한 성능을 기록하였다. 코드 및 스크립트는 https://github.com/zjwang21/StrokeNet에서 무료로 제공된다.

한자 표현의 한계 극복: 획 순서 모델링을 활용한 신경 기계 번역 | 최신 연구 논문 | HyperAI초신경