Command Palette
Search for a command to run...
Verse-Bench-Datensatz Zur Gemeinsamen Audiovisuellen Generierung
Datum
Größe
Paper-URL
Lizenz
Apache 2.0
Verse-Bench ist ein Benchmark-Datensatz zur Bewertung der gemeinsamen Generierung von Audio und Video, der 2025 von StepFun in Zusammenarbeit mit der Hong Kong University of Science and Technology, der Hong Kong University of Science and Technology (Guangzhou) und anderen Institutionen veröffentlicht wurde. Die relevanten Ergebnisse des Papiers sind „UniVerse-1: Einheitliche Audio-Video-Generierung durch Experten-Stitching“, dessen Ziel es ist, generative Modelle so zu fördern, dass sie nicht nur Videos generieren, sondern auch eine strikte zeitliche Ausrichtung mit Audioinhalten (einschließlich Umgebungsgeräuschen und Sprache) gewährleisten.
Der Datensatz enthält 600 Bild-Text-Eingabeaufforderungspaare aus YouTube, Bilibili, TikTok-Videoframes, Film-/Anime-Screenshots, von KI-Modellen generierten Bildern und öffentlichen Webbildern.
Datenverteilung
Der Datensatz ist in drei Untergruppen (Set1-I, Set2-V und Set3-Ted) unterteilt und deckt verschiedene Audiokategorien ab, wie z. B. menschliche Stimmen, Tiergeräusche, Instrumentalmusik, Naturgeräusche, Geräusche aus der Mensch-Objekt-Interaktion, Objekteinschläge und mechanische Geräusche, die jeweils für unterschiedliche Szenarien und Inhaltstypen geeignet sind. Die spezifische Verteilung ist wie folgt:
- Set 1-I enthält 205 Bild-Text-Paare, darunter KI-generierte Bilder, Web Scraping und Medien-Screenshots. Jedes Bild dient als visueller Input, und die entsprechenden Video-/Audio-Untertitel und Sprachinhalte werden durch ein großes Sprachmodell (LLM) und menschliche Annotation generiert.
- Set2-V enthält 295 Beispiele kurzer Videoclips von YouTube und BiliBili, die mit von LLM generierten Untertiteln und mit Whisper zur automatischen Spracherkennung (ASR) transkribiertem Text versehen und manuell überprüft wurden.
- Set3-Ted enthält TED-Talk-Videos vom September 2025 mit insgesamt 100 Beispielen, wobei der gleiche Annotationsprozess wie in Set2 verwendet wird.

KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.