HyperAI

مجموعة بيانات تصنيف أنواع الموسيقى GTZAN

التاريخ

منذ عام واحد

الحجم

1.21 GB

المؤسسة

كاجل

رابط النشر

www.kaggle.com

تُعد مجموعة بيانات GTZAN مجموعة البيانات العامة الأكثر استخدامًا في دراسة التعرف على الأنواع الموسيقية (MGR) من خلال الاستماع الآلي. تم جمع الملفات في عامي 2000 و2001 من مصادر مختلفة بما في ذلك الأقراص المضغوطة الشخصية، والتسجيلات الإذاعية، والميكروفون.

مجموعة بيانات GTZAN هي مجموعة بيانات قياسية تستخدم على نطاق واسع في استرجاع المعلومات الموسيقية وتصنيف الموسيقى والمهام الأخرى المتعلقة بالموسيقى. يحتوي على 1000 عينة موسيقية من 10 أنواع مختلفة، مع 100 عينة من كل نوع. تبلغ مدة هذه العينات الصوتية 30 ثانية، ويتم أخذ العينات منها بتردد 22050 هرتز، وتخزينها بتنسيق wav أحادي 16 بت. تم إنشاء مجموعة البيانات هذه في الأصل بواسطة مجموعة أدوات استرجاع معلومات الموسيقى Marsyas ويتم استخدامها على نطاق واسع لتقييم أداء خوارزميات تصنيف الموسيقى.

تحتوي مجموعة البيانات على:

  • النوع الأصلي- مجموعة من 10 أنواع، كل منها يحتوي على 100 ملف صوتي، مدة كل منها 30 ثانية (مجموعة بيانات GTZAN الشهيرة، MNIST للصوت)
  • الصورة الأصلية- التمثيل المرئي لكل ملف صوتي. إحدى الطرق لتصنيف البيانات هي من خلال الشبكة العصبية. نظرًا لأن الشبكات العصبية (مثل CNN التي سنستخدمها اليوم) تفترض عادةً نوعًا ما من تمثيل الصورة، يتم تحويل ملفات الصوت إلى مخططات طيفية ميل لتحقيق ذلك.
  • ملفين CSV- يحتوي على خصائص الملف الصوتي. يحتوي ملف واحد على المتوسط والتباين لكل أغنية (مدة كل أغنية 30 ثانية)، والتي يتم حسابها باستخدام ميزات متعددة يمكن استخراجها من ملفات الصوت. الملف الآخر له نفس البنية، ولكن الأغنية مقسمة إلى ملفات صوتية مدتها 3 ثوان.
GTZAN.torrent
البذر 1التنزيل 1مكتمل 188إجمالي التنزيلات 451
  • GTZAN/
    • README.md
      2.13 KB
    • README.txt
      4.26 KB
      • data/
        • 1.zip
          1.21 GB