HyperAI

Das Open-Source-Spracherkennungsmodell Von NVIDIA, ParaKeet-tdt-0.6b-v2, Kann Eine Stunde Audio in Nur Einer Sekunde Transkribieren Und Die Sprache Von Pichai Ge Präzise Identifizieren.

特色图像

Ob es darum geht, Benutzerabsichten in Echtzeit im intelligenten Kundenservice zu verstehen oder Audio mit mehreren Sprechgeschwindigkeiten und Akzenten in Szenarien wie Besprechungsprotokollen, Interviewbearbeitung und Untertitelgenerierung zu erkennen – die kontinuierlich steigenden Nutzungsanforderungen stellen immer strengere Anforderungen an die Spracherkennungstechnologie. Beispielsweise Erkennungsgeschwindigkeit, Nutzungskosten, Genauigkeit und Stabilität in lauten Umgebungen usw.

Angesichts der oben genannten HerausforderungenNVIDIA hat vor Kurzem das Spracherkennungsmodell ParaKeet-tdt-0.6b-v2 als Open Source freigegeben.Basierend auf der FastConformer-Architektur und der von NVIDIA selbst entwickelten TDT-Technologie (TransducerDecoderTransformer) erreicht es eine extreme Inferenzeffizienz.Die Verarbeitung von 60 Minuten Audioinhalt dauert nur 1 Sekunde.Jenseits aller gängigen Closed-Source-Modelle. Darüber hinaus konzentriert sich das Modell auf hochpräzise englische Sprachtranskriptionsaufgaben mit geringer Latenz, was sich für englische Sprach-zu-Text-Szenarien in Echtzeit eignet, die sprachenübergreifende Kommunikation erleichtert und die Protokollierung von Besprechungen reibungsloser gestaltet.

derzeit,Die Demo „ParaKeet-tdt-0.6b-v2 Spracherkennung“ wurde im Abschnitt „Tutorial“ der offiziellen Website von HyperAI veröffentlicht.Klicken Sie auf den Link unten, um das Tutorial zur Bereitstellung per Mausklick zu sehen.

Link zum Tutorial:

https://go.hyper.ai/SFu38

Demolauf

1. Nachdem Sie die Homepage von hyper.ai aufgerufen haben, wählen Sie die Seite „Tutorial“, wählen Sie „ParaKeet-tdt-0.6b-v2 Spracherkennung“ und klicken Sie auf „Dieses Tutorial online ausführen“.

2. Klicken Sie nach dem Seitensprung oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

3. Wählen Sie die Bilder „NVIDIA GeForce RTX 4090“ und „PyTorch“ aus. Die OpenBayes-Plattform bietet vier Abrechnungsmethoden. Sie können je nach Bedarf zwischen „Pay as you go“ oder „Täglich/Wöchentlich/Monatlich“ wählen. Klicken Sie auf „Weiter“. Neue Benutzer können sich über den unten stehenden Einladungslink registrieren, um 4 Stunden RTX 4090 + 5 Stunden CPU-freie Zeit zu erhalten!

Exklusiver Einladungslink von HyperAI (kopieren und im Browser öffnen):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. Warten Sie, bis die Ressourcen zugewiesen wurden. Der erste Klonvorgang dauert etwa 2 Minuten. Wenn sich der Status in „Läuft“ ändert, klicken Sie auf den Sprungpfeil neben „API-Adresse“, um zur Demoseite zu springen. Bitte beachten Sie, dass Benutzer vor der Verwendung der API-Adresszugriffsfunktion eine Echtnamenauthentifizierung durchführen müssen.

Effektdemonstration

Laden Sie die Audiodatei unter „Audiodatei hochladen“ hoch und klicken Sie dann zur Erkennung auf „Hochgeladene Datei transkribieren“. Hier habe ich einen Audioclip einer Google I/O-Keynote-Rede hochgeladen und das Modell hat ihn schnell und genau erkannt.

Der Inhalt der Spracherkennung ist wie folgt:

Hallo zusammen, guten Morgen.

Willkommen bei Google.io.

Ich habe erfahren, dass heute die Zwillingssaison beginnt.

Ich bin mir nicht wirklich sicher, was das Besondere daran ist.

Hier bei Google ist jeden Tag Zwillingssaison.

Vor ein paar Wochen hat Gemini Pokémon Blau abgeschlossen.

Darüber hinaus unterstützt ParaKeet-tdt-0.6b-v2 auch die Spracheingabe. Klicken Sie auf „Mikrofon“, dann auf „Aufnehmen“ und nach Abschluss der Aufnahme zur Erkennung auf „Hochgeladene Datei transkribieren“.

Das Obige ist das diesmal von HyperAI empfohlene praktische Tutorial. Jeder ist herzlich eingeladen, es zu erleben!

Link zum Tutorial:

https://go.hyper.ai/SFu38