HyperAIHyperAI

Command Palette

Search for a command to run...

ChunkFormer: Masked Chunking Conformer für die Langform-Sprachtranskription

Khanh Le Tuan Vu Ho Dung Tran Duc Thanh Chau

Zusammenfassung

Die Bereitstellung von ASR-Modellen in industrieller Skala stellt erhebliche Herausforderungen im Bereich der Hardware-Ressourcenverwaltung dar, insbesondere bei Aufgaben zur langformigen Transkription, bei denen Audioaufnahmen mehrere Stunden dauern können. Große Conformer-Modelle sind trotz ihrer Leistungsfähigkeit darauf beschränkt, lediglich 15 Minuten Audio auf einer 80-GiB-GPU zu verarbeiten. Zudem verschärfen variable Eingabedauern die Effizienzprobleme, da die herkömmliche Batch-Verarbeitung zu übermäßiger Padding-Verlängerung führt, was die Ressourcenbeanspruchung und die Ausführungszeit erhöht. Um diesem Problem zu begegnen, stellen wir ChunkFormer vor – ein effizientes ASR-Modell, das chunkweise Verarbeitung mit relativer rechter Kontextinformation nutzt und so die Transkription langer Audioinhalte auf GPUs mit geringem Speicher ermöglicht. ChunkFormer verarbeitet bis zu 16 Stunden Audio auf einer 80-GiB-GPU, was eine Verlängerung um 50 % gegenüber dem derzeitigen Stand der Technik, FastConformer, darstellt, und gleichzeitig die Leistung bei langformigen Transkriptionen um bis zu 7,7 Prozentpunkte im Wortfehlerquote (WER) verbessert, während die Genauigkeit bei kürzeren Aufgaben im Vergleich zu Conformer beibehalten wird. Durch die Eliminierung des Bedarfs an Padding bei der Standard-Batching-Technik reduziert der maskierte Batch-Ansatz von ChunkFormer die Ausführungszeit und den Speicherverbrauch bei der Batch-Verarbeitung um mehr als das Dreifache, wodurch die Kosten für eine Vielzahl von ASR-Systemen erheblich gesenkt werden, insbesondere hinsichtlich der GPU-Ressourcen für Modelle in realen Anwendungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp