Großer Musikdatensatz Von MusicPile
Datum
Größe
Veröffentlichungs-URL
Kategorien
MusicPile ist ein umfangreicher Vortrainingsdatensatz für Musiksprachen, der gemeinsam von der Multimodal Art Projection Research Community, Skywork AI und der Hong Kong University of Science and Technology veröffentlicht wurde. Der Datensatz enthält 5,17 Millionen Beispiele und etwa 4,16 Milliarden Token aus Quellen wie Online-Korpora, Enzyklopädien, Musikbüchern, Musikuntertiteln auf YouTube, ABC-Notationswerken, mathematischen Inhalten und Codes. Der Datensatz enthält drei Felder: ID, Text und Quelle. Jedes Texttoken darf nicht länger als 2.048 sein. MusicPile deckt ein breites Spektrum an allgemeinem musikalischen Verständnis, Wissensfragen und -antworten sowie typischen musiktheoretischen Inhalten ab, die eine Schlüsselrolle bei der Verbesserung des Musikverständnisses und der Fähigkeit zur Musikgestaltung des großen Modells spielen.