HyperAIHyperAI

Command Palette

Search for a command to run...

Speechformer: Reduzierung von Informationsverlust bei der direkten Sprachübersetzung

Sara Papi Marco Gaido Matteo Negri Marco Turchi

Zusammenfassung

Transformer-basierte Modelle haben zunehmend an Beliebtheit gewonnen und erreichen in vielen Forschungsbereichen state-of-the-art-Leistungen, darunter auch die Sprachübersetzung. Allerdings verursacht die quadratische Komplexität von Transformer bezüglich der Länge der Eingabefolge eine Beschränkung für deren direkte Anwendung bei Audiosignalen, die typischerweise durch lange Folgen dargestellt werden. Aktuelle Ansätze greifen auf eine anfängliche suboptimale Kompression zurück, die auf einer festen Abtastung der rohen Audiofeatures basiert. Dadurch bleibt potenziell nützliche sprachliche Information für die höheren Schichten der Architektur unzugänglich. Um dieses Problem zu lösen, schlagen wir Speechformer vor – eine Architektur, die dank reduzierten Speicherverbrauchs in den Aufmerksamkeits-Schichten die anfängliche verlustbehaftete Kompression vermeidet und Informationen erst auf einer höheren Ebene aggregiert, basierend auf informierteren sprachlichen Kriterien. Experimente an drei Sprachpaaren (en→de/es/nl) belegen die Wirksamkeit unserer Lösung: Wir erreichen Verbesserungen von bis zu 0,8 BLEU im Standard-MuST-C-Korpus und bis zu 4,0 BLEU in einer Low-Resource-Situation.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Speechformer: Reduzierung von Informationsverlust bei der direkten Sprachübersetzung | Paper | HyperAI