
초록
우리는 BilBOWA (Bilingual Bag-of-Words without Alignments)를 소개합니다. BilBOWA는 양방향 분산 표현을 학습하는 간단하고 계산적으로 효율적인 모델로, 대규모 단일 언어 데이터셋에 확장할 수 있으며 단어 정렬이 필요한 병렬 훈련 데이터가 필요하지 않습니다. 이 모델은 대신 단일 언어 데이터에서 직접 훈련하며, 원시 텍스트 문장 정렬 데이터의 작은 집합에서 양방향 신호를 추출합니다. 이를 위해 새로운 샘플링된 바그오브워즈(Bag-of-Words) 다국어 목적 함수를 사용하여 두 개의 노이즈-컨트라스티브 언어 모델을 규제하여 효율적인 다국어 특성 학습을 수행합니다. 우리는 제안된 모델을 사용하여 학습한 양방향 임베딩이 WMT11 데이터에서 다국어 문서 분류 작업과 어휘 번역 작업에서 최신 방법론보다 우수한 성능을 보임을 입증하였습니다.