ChunkFormer: Masked Chunking Conformer für die Langform-Sprachtranskription

Die Bereitstellung von ASR-Modellen in industrieller Skala stellt erhebliche Herausforderungen im Bereich der Hardware-Ressourcenverwaltung dar, insbesondere bei Aufgaben zur langformigen Transkription, bei denen Audioaufnahmen mehrere Stunden dauern können. Große Conformer-Modelle sind trotz ihrer Leistungsfähigkeit darauf beschränkt, lediglich 15 Minuten Audio auf einer 80-GiB-GPU zu verarbeiten. Zudem verschärfen variable Eingabedauern die Effizienzprobleme, da die herkömmliche Batch-Verarbeitung zu übermäßiger Padding-Verlängerung führt, was die Ressourcenbeanspruchung und die Ausführungszeit erhöht. Um diesem Problem zu begegnen, stellen wir ChunkFormer vor – ein effizientes ASR-Modell, das chunkweise Verarbeitung mit relativer rechter Kontextinformation nutzt und so die Transkription langer Audioinhalte auf GPUs mit geringem Speicher ermöglicht. ChunkFormer verarbeitet bis zu 16 Stunden Audio auf einer 80-GiB-GPU, was eine Verlängerung um 50 % gegenüber dem derzeitigen Stand der Technik, FastConformer, darstellt, und gleichzeitig die Leistung bei langformigen Transkriptionen um bis zu 7,7 Prozentpunkte im Wortfehlerquote (WER) verbessert, während die Genauigkeit bei kürzeren Aufgaben im Vergleich zu Conformer beibehalten wird. Durch die Eliminierung des Bedarfs an Padding bei der Standard-Batching-Technik reduziert der maskierte Batch-Ansatz von ChunkFormer die Ausführungszeit und den Speicherverbrauch bei der Batch-Verarbeitung um mehr als das Dreifache, wodurch die Kosten für eine Vielzahl von ASR-Systemen erheblich gesenkt werden, insbesondere hinsichtlich der GPU-Ressourcen für Modelle in realen Anwendungen.