BigTranslate: Erweiterung von Large Language Models um mehrsprachige Übersetzungsfähigkeiten für über 100 Sprachen

Große Sprachmodelle (LLMs) zeigen vielversprechende Übersetzungsleistung bei verschiedenen natürlichen Sprachen. Dennoch sind viele LLMs, insbesondere die quelloffenen, wie BLOOM und LLaMA, stark englischdominiert und unterstützen lediglich Dutzende natürlicher Sprachen, wodurch das Potenzial von LLMs für die Sprachübersetzung bisher nur unzureichend erschlossen wurde. In dieser Arbeit präsentieren wir BigTranslate, ein Modell, das LLaMA – ein Modell mit ursprünglich nur 20 Sprachunterstützungen – erweitert und mit multilingualer Übersetzungsfähigkeit für über 100 Sprachen ausstattet. BigTranslate basiert auf LLaMA-13B und wird in drei Schritten optimiert: Erstens führen wir die Weitertrainierung von LLaMA mit umfangreichen monolingualen Chinesisch-Daten durch. Zweitens trainieren wir das Modell weiterhin mit einem großskaligen Paralleldatensatz, der 102 natürliche Sprachen abdeckt. Drittens instruieren wir das Grundmodell mit multilingualen Übersetzungsanweisungen, was zu unserem BigTranslate-Modell führt. Erste Experimente zur multilingualen Übersetzung zeigen, dass BigTranslate in vielen Sprachen vergleichbare Leistung wie ChatGPT und Google Translate erzielt und in acht Sprachpaaren sogar ChatGPT übertrifft. Wir stellen das BigTranslate-Modell öffentlich zur Verfügung und hoffen, damit den Forschungsfortschritt in diesem Bereich voranzutreiben.