Speechformer: Reduzierung von Informationsverlust bei der direkten Sprachübersetzung

Transformer-basierte Modelle haben zunehmend an Beliebtheit gewonnen und erreichen in vielen Forschungsbereichen state-of-the-art-Leistungen, darunter auch die Sprachübersetzung. Allerdings verursacht die quadratische Komplexität von Transformer bezüglich der Länge der Eingabefolge eine Beschränkung für deren direkte Anwendung bei Audiosignalen, die typischerweise durch lange Folgen dargestellt werden. Aktuelle Ansätze greifen auf eine anfängliche suboptimale Kompression zurück, die auf einer festen Abtastung der rohen Audiofeatures basiert. Dadurch bleibt potenziell nützliche sprachliche Information für die höheren Schichten der Architektur unzugänglich. Um dieses Problem zu lösen, schlagen wir Speechformer vor – eine Architektur, die dank reduzierten Speicherverbrauchs in den Aufmerksamkeits-Schichten die anfängliche verlustbehaftete Kompression vermeidet und Informationen erst auf einer höheren Ebene aggregiert, basierend auf informierteren sprachlichen Kriterien. Experimente an drei Sprachpaaren (en→de/es/nl) belegen die Wirksamkeit unserer Lösung: Wir erreichen Verbesserungen von bis zu 0,8 BLEU im Standard-MuST-C-Korpus und bis zu 4,0 BLEU in einer Low-Resource-Situation.