HyperAI

مجموعة بيانات ترجمات الصوت AudioSetCaps

التاريخ

منذ 6 أشهر

الحجم

120.7 MB

المؤسسة

جامعة نانيانغ التكنولوجية
جامعة سري

رابط النشر

github.com

الترخيص

CC BY 4.0

تم إصدار مجموعة البيانات في عام 2024 من قبل باحثين من جامعة نورث وسترن بوليتكنيك، وشركة شيان ليانفينج للتكنولوجيا الصوتية المحدودة، وجامعة نانيانغ التكنولوجية، وجامعة سري، ومعهد الصوتيات، التابع للأكاديمية الصينية للعلوم.AudioSetCaps: إنشاء مجموعة بيانات ترجمة صوتية مُثرية باستخدام نماذج لغة صوتية كبيرة"، تم قبوله بواسطة NeurIPS 24.

AudioSetCaps عبارة عن مجموعة بيانات توضيحية صوتية تحتوي على 6,117,099 ملف صوتي مدته 10 ثوانٍ. يأتي كل ملف صوتي مصحوبًا بعنوان وصفي وثلاثة أزواج من الأسئلة والأجوبة كبيانات وصفية لتوليد العنوان النهائي (ما مجموعه 18,414,789 زوجًا من بيانات الأسئلة والأجوبة).

يتم إنشاؤه باستخدام خط أنابيب توليد آلي لنماذج الصوت واللغة الكبيرة باستخدام البيانات من ثلاث مجموعات بيانات صوتية: AudioSet وYouTube-8M وVGGSound.

AudioSetCaps.torrent
البذر 1التنزيل 1مكتمل 52إجمالي التنزيلات 46
  • AudioSetCaps/
    • README.md
      1.63 KB
    • README.txt
      3.27 KB
      • data/
        • AudioSetCaps.zip
          120.7 MB