vor 6 Monaten

Zusammenfassung

Die Bereitstellung von ASR-Modellen in industrieller Skala stellt erhebliche Herausforderungen im Bereich der Hardware-Ressourcenverwaltung dar, insbesondere bei Aufgaben zur langformigen Transkription, bei denen Audioaufnahmen mehrere Stunden dauern können. Große Conformer-Modelle sind trotz ihrer Leistungsfähigkeit darauf beschränkt, lediglich 15 Minuten Audio auf einer 80-GiB-GPU zu verarbeiten. Zudem verschärfen variable Eingabedauern die Effizienzprobleme, da die herkömmliche Batch-Verarbeitung zu übermäßiger Padding-Verlängerung führt, was die Ressourcenbeanspruchung und die Ausführungszeit erhöht. Um diesem Problem zu begegnen, stellen wir ChunkFormer vor – ein effizientes ASR-Modell, das chunkweise Verarbeitung mit relativer rechter Kontextinformation nutzt und so die Transkription langer Audioinhalte auf GPUs mit geringem Speicher ermöglicht. ChunkFormer verarbeitet bis zu 16 Stunden Audio auf einer 80-GiB-GPU, was eine Verlängerung um 50 % gegenüber dem derzeitigen Stand der Technik, FastConformer, darstellt, und gleichzeitig die Leistung bei langformigen Transkriptionen um bis zu 7,7 Prozentpunkte im Wortfehlerquote (WER) verbessert, während die Genauigkeit bei kürzeren Aufgaben im Vergleich zu Conformer beibehalten wird. Durch die Eliminierung des Bedarfs an Padding bei der Standard-Batching-Technik reduziert der maskierte Batch-Ansatz von ChunkFormer die Ausführungszeit und den Speicherverbrauch bei der Batch-Verarbeitung um mehr als das Dreifache, wodurch die Kosten für eine Vielzahl von ASR-Systemen erheblich gesenkt werden, insbesondere hinsichtlich der GPU-Ressourcen für Modelle in realen Anwendungen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Audio- Und Sprachverarbeitung

Natürliche Sprachverarbeitung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Audio

Aufgabe

Khanh Le Tuan Vu Ho Dung Tran Duc Thanh Chau

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Audio- Und Sprachverarbeitung

Natürliche Sprachverarbeitung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Audio

Aufgabe

Khanh Le Tuan Vu Ho Dung Tran Duc Thanh Chau

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ChunkFormer: Masked Chunking Conformer für die Langform-Sprachtranskription

Khanh Le Tuan Vu Ho Dung Tran Duc Thanh Chau

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ChunkFormer: Masked Chunking Conformer für die Langform-Sprachtranskription

Khanh Le Tuan Vu Ho Dung Tran Duc Thanh Chau

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ChunkFormer: Masked Chunking Conformer für die Langform-Sprachtranskription

Khanh Le Tuan Vu Ho Dung Tran Duc Thanh Chau

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters