
초록
본 연구에서는 구성적 다국어 단어 표현을 유도하기 위한 새로운 신경망 기반 아키텍처를 제시합니다. 기존의 방법들과 달리, 본 방법은 다음 세 가지 기준을 충족합니다: 단어 수준의 표현이 구성적이어야 한다는 점, 양방향 언어 데이터와 단일 언어 데이터를 모두 활용할 수 있다는 점, 그리고 대규모 어휘와 대량의 데이터에 확장 가능하다는 점입니다. 본 접근법의 핵심 요소는 '단일 언어 포함 기준'(monolingual inclusion criterion)으로, 문구가 무작위로 샘플링된 다른 문구보다 자신의 하위 문구와 더 밀접한 의미적 관련성이 있다는 관찰을 활용합니다. 우리는 잘 알려진 다국어 문서 분류 작업에서 본 방법을 평가하였으며, 이전 최신 방법들과 비교하여 유사하거나 크게 개선된 결과를 얻었습니다. 구체적으로, 영어-독일어 및 독일어-영어 하위 작업에서 각각 92.7%와 84.4%의 정확도를 달성하였습니다. 전자는 정확도 측면에서 0.9% 포인트 향상되었으며, 후자는 이전 최신 방법보다 7.7% 포인트의 절대적인 개선과 오류 감소 측면에서 33.0%의 개선을 보였습니다.