BilBOWA: Schnelle bilingual verteilte Repräsentationen ohne Wörterausrichtung

Wir stellen BilBOWA (Bilingual Bag-of-Words ohne Ausrichtungen) vor, ein einfaches und rechnerisch effizientes Modell zur Lernung von bilingualen verteilten Repräsentationen von Wörtern, das sich auf große mono-linguale Datensätze skalieren lässt und keine wortweise ausgerichteten parallelen Trainingsdaten erfordert. Stattdessen wird es direkt auf mono-lingualen Daten trainiert und extrahiert ein bilinguales Signal aus einem kleineren Satz roher, satzweise ausgerichteter Textdaten. Dies wird durch ein neuartiges, stichprobenbasiertes Bag-of-Words-Kreisprachziel erreicht, das verwendet wird, um zwei rauschkontrastive Sprachmodelle für eine effiziente Kreisprachmerkmalslernung zu regularisieren. Wir zeigen, dass die bilingualen Einbettungen, die mit dem vorgeschlagenen Modell gelernt wurden, sowohl bei einer kreisprachlichen Dokumentklassifizierungsaufgabe als auch bei einer lexikalischen Übersetzungsaufgabe auf WMT11-Daten den Stand der Technik übertreffen.