HyperAIHyperAI
Back to Headlines

NVIDIA veröffentlicht Datensatz und Modelle für multilinguale SprachkI

vor 2 Tagen

NVIDIA hat ein neues Open-Source-Dataset namens Granary sowie zwei neu entwickelte Sprachmodell-Generationen – Canary-1b-v2 und Parakeet-tdt-0.6b-v3 – veröffentlicht, um die Entwicklung hochwertiger Spracherkennungs- und Übersetzungs-Technologien für 25 europäische Sprachen zu beschleunigen. Dieses Vorhaben zielt darauf ab, die sprachliche Ungleichheit in der KI zu verringern, da nur ein Bruchteil der weltweit etwa 7.000 Sprachen ausreichend durch KI-Modelle unterstützt wird. Insbesondere Sprachen mit geringer Datenverfügbarkeit wie Kroatisch, Estnisch oder Maltesisch profitieren nun von einem massiv verbesserten Datensatz. Die Forschung wurde in Zusammenarbeit mit der Carnegie Mellon University und der Fondazione Bruno Kessler durchgeführt und basiert auf einer innovativen Datenverarbeitung, die durch NVIDIA NeMo Speech Data Processor ermöglicht wird. Dieses Tool wandelt unlabeled Audio in strukturierte, hochwertige Daten um, ohne auf zeitaufwändige menschliche Annotation angewiesen zu sein – ein entscheidender Fortschritt bei der Bewältigung von Datenknappheit. Das Granary-Dataset enthält saubere, vorverarbeitete Sprachdaten für alle 24 Amtssprachen der Europäischen Union sowie Russisch und Ukrainisch. In der vorgestellten Studie auf der Interspeech-Konferenz im August 2025 zeigte sich, dass mit nur halb so viel Daten aus Granary bereits eine vergleichbare Genauigkeit bei der automatischen Spracherkennung (ASR) und Sprachübersetzung (AST) erreicht wird wie mit anderen gängigen Datensätzen. Dies macht die Entwicklung effizienter und zugänglicher, insbesondere für Entwickler mit begrenzten Ressourcen. Die neuen Modelle Canary-1b-v2 und Parakeet-tdt-0.6b-v3 sind direkt auf Hugging Face verfügbar und bauen auf Granary auf. Canary-1b-v2 ist für hohe Genauigkeit bei komplexen Aufgaben optimiert und erreicht Leistungen vergleichbar mit Modellen, die drei Mal größer sind, aber bis zu zehnmal schneller inferiert. Es unterstützt nun 25 Sprachen und ist unter einer permissiven Lizenz verfügbar. Parakeet-tdt-0.6b-v3 dagegen ist auf Geschwindigkeit und geringe Latenz ausgelegt: Er kann 24-minütige Audio-Clips in einem einzigen Durchlauf transkribieren, erkennt automatisch die Sprache und liefert Punktuation, Großschreibung und Wort-Timestamps – ideal für Echtzeit-Anwendungen wie Kundenservice-Agents oder multilinguale Chatbots. Die NVIDIA NeMo-Software, insbesondere NeMo Curator und der Speech Data Processor, spielten eine zentrale Rolle bei der Filterung von synthetischen Daten und der Datenformatierung. Dadurch wurde die Qualität der Trainingsdaten sichergestellt. Die Veröffentlichung von Methodik, Datensatz und Modellen soll die globale KI-Entwicklung beschleunigen und die Nachahmung für andere Sprachen und Anwendungsfälle ermöglichen. Branchenexperten begrüßen die Initiative als Meilenstein für sprachliche Inklusion in der KI. „NVIDIA setzt mit Granary und den neuen Modellen einen neuen Standard für datenarme Sprachen“, sagt ein Experte für Sprachtechnologie an einer europäischen Forschungseinrichtung. „Die Kombination aus Open-Source-Daten und effizienten Modellen wird die Entwicklung von multilingualen Anwendungen für Unternehmen und öffentliche Dienstleistungen massiv vereinfachen.“ NVIDIA, ein führender Anbieter von KI-Hardware und -Software, positioniert sich weiterhin als treibende Kraft in der SprachkI-Entwicklung. Mit NeMo und Projekten wie Granary stärkt das Unternehmen nicht nur seine technologische Führungsrolle, sondern auch seine Rolle als Enabler für eine diversere, globalere KI-Zukunft.

Related Links