HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات ترجمات الصوت AudioSetCaps

التاريخ

منذ عام واحد

الحجم

120.7 MB

المؤسسة

جامعة نانيانغ التكنولوجية
جامعة نورث وسترن بوليتكنيك
جامعة سري

عنوان URL للنشر

github.com

رابط الورقة البحثية

openreview.net

الترخيص

CC BY 4.0

تم إصدار مجموعة البيانات في عام 2024 من قبل باحثين من جامعة نورث وسترن بوليتكنيك، وشركة شيان ليانفينج للتكنولوجيا الصوتية المحدودة، وجامعة نانيانغ التكنولوجية، وجامعة سري، ومعهد الصوتيات، التابع للأكاديمية الصينية للعلوم.AudioSetCaps: إنشاء مجموعة بيانات ترجمة صوتية مُثرية باستخدام نماذج لغة صوتية كبيرة"، تم قبوله بواسطة NeurIPS 24.

AudioSetCaps عبارة عن مجموعة بيانات توضيحية صوتية تحتوي على 6,117,099 ملف صوتي مدته 10 ثوانٍ. يأتي كل ملف صوتي مصحوبًا بعنوان وصفي وثلاثة أزواج من الأسئلة والأجوبة كبيانات وصفية لتوليد العنوان النهائي (ما مجموعه 18,414,789 زوجًا من بيانات الأسئلة والأجوبة).

يتم إنشاؤه باستخدام خط أنابيب توليد آلي لنماذج الصوت واللغة الكبيرة باستخدام البيانات من ثلاث مجموعات بيانات صوتية: AudioSet وYouTube-8M وVGGSound.

AudioSetCaps.torrent
البذر 1جارٍ التنزيل 0مكتمل 122إجمالي التنزيلات 228
  • AudioSetCaps/
    • README.md
      1.63 KB
    • README.txt
      3.27 KB
      • data/
        • AudioSetCaps.zip
          120.7 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp