BERT, mBERT oder BiBERT? Eine Studie zu kontextuellen Embeddings für neuronale Maschinenübersetzung

Der Erfolg bidirektionaler Encoder, die auf maskierten Sprachmodellen wie BERT basieren, bei zahlreichen Aufgaben des natürlichen Sprachverstehens hat Forscher dazu veranlasst, diese vortrainierten Modelle in neuronale Maschinenübersetzungssysteme (NMT) zu integrieren. Allerdings sind die vorgeschlagenen Ansätze zur Integration vortrainierter Modelle nicht trivial und konzentrieren sich hauptsächlich auf BERT, wobei der Einfluss anderer vortrainierter Modelle auf die Übersetzungsleistung kaum verglichen wird. In diesem Artikel zeigen wir, dass die einfache Verwendung der Ausgabe (kontextualisierter Embeddings) eines maßgeschneiderten und geeigneten zweisprachigen vortrainierten Sprachmodells (als BiBERT bezeichnet) als Eingabe für den NMT-Encoder eine state-of-the-art Übersetzungsleistung erzielt. Darüber hinaus stellen wir eine stochastische Schichtauswahlstrategie sowie das Konzept eines dual-directionalen Übersetzungsmodells vor, um eine ausreichende Nutzung der kontextualisierten Embeddings sicherzustellen. Ohne die Verwendung von Back-Translation erreichen unsere besten Modelle auf dem IWSLT'14-Datensatz BLEU-Scores von 30,45 für En→De und 38,61 für De→En, sowie auf dem WMT'14-Datensatz 31,26 für En→De und 34,94 für De→En – Werte, die alle bisher veröffentlichten Zahlen übertreffen.