Command Palette
Search for a command to run...
Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Bestehende Zero-Shot-Text-to-Speech-Modelle (TTS) unterstützen typischerweise nur eine begrenzte Anzahl von Sprachen und vernachlässigen viele ressourcenarme Sprachen. Um diese Einschränkung zu überwinden,Das Kaldi-Team der nächsten Generation von Xiaomi AI Labs hat OmniVoice auf den Markt gebracht – ein groß angelegtes, mehrsprachiges Zero-Shot-TTS-Modell, das über 600 Sprachen unterstützt.OmniVoice verzichtet auf die umständliche, traditionelle zweistufige Kaskadenarchitektur und verwendet stattdessen ein schlankes, einstufiges, diskretes, nicht-autoregressives (NAR) Framework, um Text direkt akustischen Markern zuzuordnen. Trainiert mit 581.000 Stunden reiner Open-Source-Daten, erreicht OmniVoice die bisher umfassendste Sprachabdeckung.
Aktuell ist auf der HyperAI-Website [der entsprechende Bereich/die entsprechende Funktion] verfügbar.OmniVoice: Unterstützt hochwertige Text-to-Speech-Funktionen in über 600 SprachenKomm und probier es aus!
Online-Nutzung:https://go.hyper.ai/BvKri
Besuchen Sie unsere offizielle Website für weitere Informationen:
Ein kurzer Überblick über die Aktualisierungen der offiziellen Website von hyper.ai vom 11. bis 17. April:
* Hochwertige öffentliche Datensätze: 11
* Eine Auswahl hochwertiger Tutorials: 6
* Analyse von Community-Artikeln: 2 Artikel
* Beliebte Enzyklopädieeinträge: 5
Top-Konferenzen mit Anmeldefristen im April: 2
Besuchen Sie die offizielle Website:hyper.ai
Ausgewählte öffentliche Datensätze
1. Datensatz zum Schlaganfallrisiko
Der Datensatz „Stroke Risk“ dient der Analyse und Vorhersage des Schlaganfallrisikos im Gesundheitswesen. Er basiert auf gängigen klinischen Risikofaktoren und umfasst demografische Informationen, die Krankengeschichte, Lebensstilfaktoren und wichtige Gesundheitsindikatoren. Der Datensatz bildet die Wahrscheinlichkeit eines Schlaganfalls unter verschiedenen Gesundheits- und Lebensstilbedingungen ab und unterstützt maschinelle Lernmodelle bei der Vorhersage und Analyse des Schlaganfallrisikos. Dadurch können wichtige Einflussfaktoren identifiziert und die Früherkennung und Prävention verbessert werden.
Online-Nutzung:https://go.hyper.ai/6CTH5
2. ToolACE-Datensatz für komplexe Werkzeuglerndialoge
ToolACE ist ein Datensatz für automatisierte Agenten-Pipelines zum Erlernen von Werkzeugen. Dieser Datensatz enthält mehrstufige Dialogbeispiele, die 26.507 verschiedene APIs aufrufen. Die Beispiele werden durch Interaktionen mehrerer Agenten generiert und durchlaufen einen zweistufigen Qualitätssicherungsprozess aus Regelprüfung und Modellvalidierung. Jeder Dialog repräsentiert eine mehrstufige Informationsabfrage und -analyse aus verschiedenen Quellen, simuliert realistische Werkzeugaufrufszenarien und liefert hochwertige Trainingsdaten für LLM (Low-Level Learning).
Online-Nutzung:https://go.hyper.ai/o3E12
3.CHOCLO Lateinamerikanischer Kultur-Benchmark-Datensatz
Der CHOCLO-Datensatz ist ein Benchmark-Datensatz, der speziell zur Bewertung der Kenntnisse lateinamerikanischer Kultur in Sprachmodellen entwickelt wurde. Er zielt darauf ab, die Genauigkeit von Sprachmodellen bei der Repräsentation lateinamerikanischer Kultur zu beurteilen und soll reale Probleme wie die Unterschätzung, Auslassung und Verzerrung lateinamerikanischer Kultur in Sprachmodellen adressieren.
Online-Nutzung:https://go.hyper.ai/pjVQi
4. DRACO Cross-Disciplinary In-Depth Research Benchmark Dataset
Der vom Perplexity-Team veröffentlichte DRACO-Datensatz ist ein Datensatz, der zur Bewertung komplexer Forschungsaufgaben entwickelt wurde und darauf abzielt, die umfassenden Fähigkeiten von Deep-Learning-Systemen hinsichtlich Genauigkeit, Vollständigkeit und Objektivität systematisch zu bewerten.
Online-Nutzung:https://go.hyper.ai/hIWgS
5. MDPBench Multilingual Document Parsing Benchmark-Datensatz
MDPBench ist ein Benchmark-Datensatz für die Analyse mehrsprachiger digitaler und fotografischer Dokumente. Er wurde entwickelt, um die Fähigkeit von Modellen zur Analyse mehrsprachiger Dokumente in realen, komplexen Szenarien zu bewerten und zu verbessern.
Online-Nutzung:https://go.hyper.ai/1Mc9a
6. World Model Bench-Datensatz
World Model Bench ist der weltweit erste Benchmark zur Bewertung der kognitiven Fähigkeiten von Weltmodellen und verkörperten KI-Systemen. Er geht über traditionelle Bild- und Videoqualitätsbewertungen hinaus und konzentriert sich stattdessen auf die kognitiven Fähigkeiten der Modelle. Dieser Datensatz dient der Bewertung der Fähigkeiten von Weltmodellen und deckt drei Kerndimensionen ab: Wahrnehmung, Kognition und Verkörperung. Er ist in zehn Aufgabenkategorien unterteilt, darunter Umgebungsverständnis, Entitätserkennung und -klassifizierung sowie prädiktives Schließen, und umfasst 100 verschiedene Szenarien, die entwickelt wurden, um die kognitiven Fähigkeiten und die Entscheidungsfindung von Modellen in komplexen Umgebungen systematisch zu bewerten.
Online-Nutzung:https://go.hyper.ai/hY0aP
7. Datensatz zur Erkennung von Kreditkartenbetrug
Der Datensatz „Kreditkartenbetrug“ dient der Erkennung von Kreditkartenbetrug in Finanztransaktionsszenarien. Er unterstützt Modelle des maschinellen Lernens bei der Identifizierung und Modellierung anomaler Transaktionen und konzentriert sich dabei auf die Lösung des Problems extremer Klassenungleichgewichte in Finanzszenarien. Dadurch werden die Erkennungsfähigkeiten der Modelle in realen Geschäftsumgebungen verbessert.
Online-Nutzung:https://go.hyper.ai/3d8nS
8. Datensatz zur Erkennung von Spam-E-Mails
Der Datensatz zur Spam-E-Mail-Erkennung ist ein Datensatz mit annotierten E-Mails für Aufgaben der Spam-Erkennung. Dieser Datensatz soll die Forschung in den Bereichen Klassifizierungsmodellierung, Verarbeitung natürlicher Sprache und Merkmalsentwicklung unterstützen und die Fähigkeit des Modells zur Spam-Erkennung verbessern.
Online-Nutzung:https://go.hyper.ai/HkpX5
9. Datensatz „Einfache Sprachfragen“
Simple Voice Questions ist ein von Google veröffentlichter Datensatz mit kurzen Audioaufnahmen. Dieser mehrsprachige Datensatz enthält kurze Audiofragen in 17 Sprachen aus 26 Regionen mit insgesamt rund 700 Sprechern. Jeder Sprecher liefert bis zu 250 Sprachproben, die verschiedene Sprachen wie Arabisch, Englisch, Japanisch, Koreanisch und Hindi abdecken und unterschiedliche Aufnahmebedingungen wie ruhige Umgebungen, Hintergrundgeräusche und Verkehrslärm berücksichtigen.
Online-Nutzung:https://go.hyper.ai/lrKpK
10. COCO-2017-Vietnamesischer Datensatz zur Bilderkennung
COCO-2017-Vietnamese ist ein vietnamesischer Lokalisierungsdatensatz, der auf dem von Microsoft vorgeschlagenen Common Objects in Context 2017-Datensatz basiert und von der AI Enthusiast Community zusammengestellt und veröffentlicht wurde. Dieser Datensatz ergänzt die englischen Original-Bildbeschreibungen um hochwertige vietnamesische Übersetzungen und bietet so einen umfassenden Benchmark in einem zweisprachigen Rahmen. Er eignet sich für Aufgaben wie Bildbeschreibung und multimodales Lernen.
Online-Nutzung:https://go.hyper.ai/VM6gY
11. GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz
Der GPT-5.4-Datensatz für schrittweises Schlussfolgern ist ein hochdichter Datensatz für synthetisches Schlussfolgern, der für die Modellierung von Long-Chain Reasoning (CoT) und komplexen Problemlösungsaufgaben entwickelt wurde. Dieser Datensatz enthält ca. 1.500 Beispiele auf Elite-Niveau aus hochkomplexen Bereichen wie Mathematik, Programmierung und Medizin. Der Schwierigkeitsgrad der Aufgaben ist einheitlich auf „Großmeister“ und „Jenseits der Promotion“ festgelegt.
Online-Nutzung:https://go.hyper.ai/HjJlT
Ausgewählte öffentliche Tutorials
1. OmniVoice: Unterstützt hochwertige TTS in über 600 Sprachen.
OmniVoice ist ein mehrsprachiges Text-to-Speech-Modell (TTS), das vom Next-Gen Kaldi-Team des Xiaomi AI Lab entwickelt wurde und hochwertige Sprachsynthese in über 600 Sprachen unterstützt. Basierend auf einer iterativen, unmaskierten Dekodierungsarchitektur implementiert das Projekt drei Kernfunktionen: Stimmklonierung, Stimmgestaltung und automatische Sprachausgabe.
Online ausführen:https://go.hyper.ai/BvKri

2. DeepTutor – Ihr persönlicher Lernassistent
DeepTutor, im März 2026 vom Data Intelligence Lab der Universität Hongkong ins Leben gerufen, ist ein umfassendes, KI-gestütztes Lehrsystem und ein persönlicher Lernassistent. Das Projekt integriert vier Kernfunktionsmodule: umfangreiche dokumentenbasierte Wissensfragen und -antworten, interaktive Lernvisualisierung, Wissensfestigung und Generierung von Übungsfragen sowie tiefgehende Recherche und kreative Generierung. Dadurch bietet es Lernenden ein intelligentes Lernerlebnis aus einer Hand.
Online ausführen:https://go.hyper.ai/8YnI3

3. VoxCPM2-Sprachwiedergabe: Über 30 Sprachen, 9 Dialekte
VoxCPM2 ist ein tokenizerfreies Text-to-Speech-Modell mit 2 Milliarden Parametern, das von OpenBMB im April 2026 veröffentlicht wurde. Es unterstützt 30 Sprachen, benötigt keine zusätzlichen Sprachkennzeichnungen und deckt verschiedene Anwendungsfälle ab, darunter die Generierung neuer Klangfarben, kontrolliertes Klonen anhand von Referenzaudio, extremes Klonen durch die Kombination von Referenzaudio mit transkribiertem Text sowie die automatische Anpassung von Tonfall und Ausdruckskraft basierend auf dem Textinhalt. Die offiziellen Spezifikationen heben außerdem die 48-kHz-Ausgabe, die Kompatibilität mit 16-kHz-Referenzaudio und die kontextabhängige Ausdrucksfähigkeit hervor.
Online ausführen:https://go.hyper.ai/RLgK9

4. Bereitstellung von Nemotron-Cascade-2-30B-A3B mit einem Klick
Nemotron-Cascade-2-30B-A3B, ein von NVIDIA im März 2026 veröffentlichtes Open-Source-Sprachmodell mit 30 Milliarden Modulen (MoE) und ca. 3 Milliarden aktivierten Parametern, wurde auf Nemotron-3-Nano-30B-A3B-Base trainiert. Der Fokus des Modells liegt auf leistungsstarken Inferenz-, Dialog-, Code- und Handlungsfähigkeiten, wobei sowohl der Denk- als auch der Instruktionsmodus unterstützt werden.
Online ausführen:https://go.hyper.ai/GoEaW

5. Netflix VOID: Eine revolutionäre Technologie zur Objektentfernung in Videos mit physikalischer Wahrnehmung.
Netflix VOID ist ein Videobearbeitungsmodell, das im April 2026 gemeinsam vom Netflix-Team und der Universität Sofia als Open Source veröffentlicht wurde. Mit 5 Milliarden Parametern wurde das Netflix VOID-Modell entwickelt, um das Problem der physikalischen Konsistenz in der Filmnachbearbeitung zu lösen und die Grenzen traditioneller Videobearbeitungstechniken bei der Behandlung der Kausallogik komplexer Objektinteraktionen zu überwinden.
Online ausführen:https://go.hyper.ai/uZoMl

6. Fun-CineForge: Ein einheitliches Modell für Zero-Sample-Synchronisation in verschiedenen Film- und Fernsehszenarien
Fun-CineForge ist ein Zero-Shot-Filmsynchronisationsprojekt, das im Januar 2026 gemeinsam vom Tongyi Labs Speech Team und der Universität für Wissenschaft und Technologie Chinas ins Leben gerufen wurde. Das Projekt umfasst eine durchgängige Datensatzpipeline zur Erstellung umfangreicher Synchronisationsdatensätze sowie ein Synchronisationsmodell, das auf einem Large Multimodal Model (LMM) basiert und für verschiedene Filmszenarien konzipiert ist.
Online ausführen:https://go.hyper.ai/DyQKk

Interpretation von Gemeinschaftsartikeln
1. KI-gestützte Neuentwicklung verschiedener niedermolekularer Bindungsproteine: Ein südkoreanisches Team entdeckte ein Protein, das Stresshormone selektiv erkennen kann.
Ein Forschungsteam des Fachbereichs Biowissenschaften am Korea Advanced Institute of Science and Technology (KAIST) hat mithilfe von Deep Learning und Methoden zur Proteinstrukturgenerierung und Sequenzgestaltung verschiedene niedermolekulare Bindungsproteine neu entwickelt. Dabei diente die NTF2-ähnliche Faltung als universelles Grundgerüst. Die so entstandenen Proteine wurden anschließend in Sensoren umgewandelt, die der chemisch induzierten Dimerisierung (CID) ähneln. Den Forschern gelang es, ein Protein zu entwickeln, das selektiv das Stresshormon Cortisol erkennt, und darauf basierend einen KI-Biosensor zu implementieren.
Den vollständigen Bericht ansehen:https://go.hyper.ai/FpAXm
2. Einem französischen Team gelang es, 2,39 Millionen Antiphagenproteine vorherzusagen und mithilfe eines Deep-Learning-Modells die antivirale Immunität von Bakterien abzubilden.
Forscher des Pasteur-Instituts in Frankreich haben drei sich ergänzende Deep-Learning-Modelle zur großflächigen Vorhersage von Phagenresistenz entwickelt und optimiert. Das Modell ALBERT_DF stützt sich ausschließlich auf den lokalen genomischen Kontext; ESM_DF verwendet ein Protein-Sprachmodell zur Analyse von Aminosäuresequenzen; und GeneCLR_DF integriert Sequenzinformationen mit dem genomischen Kontext.
Den vollständigen Bericht ansehen:https://go.hyper.ai/J5Oz3
Beliebte Enzyklopädieartikel
1. Fähigkeiten
2. Wahrheitsgehalt
3. Der Mensch im Regelkreis
4. Sprachverständnis im großen Maßstab durch Multitasking (MMLU)
5. Reziproke Rangfusion
Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:
Top-Konferenz mit Anmeldeschluss im April

Zentrale Verfolgung der wichtigsten wissenschaftlichen KI-Konferenzen:https://go.hyper.ai/event
Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!
Bis nächste Woche!
Über HyperAI
HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:
* Bietet inländische beschleunigte Download-Knoten für mehr als 2100 öffentliche Datensätze
* Enthält über 700 klassische und beliebte Online-Tutorials
* Analyse von über 300 AI4Science-Fallstudien
* Unterstützt die Suche nach über 700 verwandten Begriffen
* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China
Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:








