HyperAIHyperAI

Command Palette

Search for a command to run...

Verse-Bench-Datensatz Zur Gemeinsamen Audiovisuellen Generierung

Datum

vor 4 Monaten

Größe

115.41 MB

Organisation

StepFun
Die Hong Kong University of Science and Technology
Die Hong Kong University of Science and Technology (GuangZhou)

Paper-URL

2509.06155

Lizenz

Apache 2.0

Verse-Bench ist ein Benchmark-Datensatz zur Bewertung der gemeinsamen Generierung von Audio und Video, der 2025 von StepFun in Zusammenarbeit mit der Hong Kong University of Science and Technology, der Hong Kong University of Science and Technology (Guangzhou) und anderen Institutionen veröffentlicht wurde. Die relevanten Ergebnisse des Papiers sind „UniVerse-1: Einheitliche Audio-Video-Generierung durch Experten-Stitching“, dessen Ziel es ist, generative Modelle so zu fördern, dass sie nicht nur Videos generieren, sondern auch eine strikte zeitliche Ausrichtung mit Audioinhalten (einschließlich Umgebungsgeräuschen und Sprache) gewährleisten.

Der Datensatz enthält 600 Bild-Text-Eingabeaufforderungspaare aus YouTube, Bilibili, TikTok-Videoframes, Film-/Anime-Screenshots, von KI-Modellen generierten Bildern und öffentlichen Webbildern.

Datenverteilung

Der Datensatz ist in drei Untergruppen (Set1-I, Set2-V und Set3-Ted) unterteilt und deckt verschiedene Audiokategorien ab, wie z. B. menschliche Stimmen, Tiergeräusche, Instrumentalmusik, Naturgeräusche, Geräusche aus der Mensch-Objekt-Interaktion, Objekteinschläge und mechanische Geräusche, die jeweils für unterschiedliche Szenarien und Inhaltstypen geeignet sind. Die spezifische Verteilung ist wie folgt:

  • Set 1-I enthält 205 Bild-Text-Paare, darunter KI-generierte Bilder, Web Scraping und Medien-Screenshots. Jedes Bild dient als visueller Input, und die entsprechenden Video-/Audio-Untertitel und Sprachinhalte werden durch ein großes Sprachmodell (LLM) und menschliche Annotation generiert.
  • Set2-V enthält 295 Beispiele kurzer Videoclips von YouTube und BiliBili, die mit von LLM generierten Untertiteln und mit Whisper zur automatischen Spracherkennung (ASR) transkribiertem Text versehen und manuell überprüft wurden.
  • Set3-Ted enthält TED-Talk-Videos vom September 2025 mit insgesamt 100 Beispielen, wobei der gleiche Annotationsprozess wie in Set2 verwendet wird.
Dataset-Beispiel

Verse-Bench.torrent
Seeding 1Wird heruntergeladen 0Abgeschlossen 0Gesamtdownloads 53
  • Verse-Bench/
    • README.md
      2.45 KB
    • README.txt
      4.89 KB
      • data/
        • Verse-Bench.zip
          115.41 MB

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp