Command Palette
Search for a command to run...
مجموعة بيانات ترجمات الصوت AudioSetCaps
التاريخ
الحجم
رابط النشر
رابط الورقة البحثية
الترخيص
CC BY 4.0
العلامات
تم إصدار مجموعة البيانات في عام 2024 من قبل باحثين من جامعة نورث وسترن بوليتكنيك، وشركة شيان ليانفينج للتكنولوجيا الصوتية المحدودة، وجامعة نانيانغ التكنولوجية، وجامعة سري، ومعهد الصوتيات، التابع للأكاديمية الصينية للعلوم.AudioSetCaps: إنشاء مجموعة بيانات ترجمة صوتية مُثرية باستخدام نماذج لغة صوتية كبيرة"، تم قبوله بواسطة NeurIPS 24.
AudioSetCaps عبارة عن مجموعة بيانات توضيحية صوتية تحتوي على 6,117,099 ملف صوتي مدته 10 ثوانٍ. يأتي كل ملف صوتي مصحوبًا بعنوان وصفي وثلاثة أزواج من الأسئلة والأجوبة كبيانات وصفية لتوليد العنوان النهائي (ما مجموعه 18,414,789 زوجًا من بيانات الأسئلة والأجوبة).
يتم إنشاؤه باستخدام خط أنابيب توليد آلي لنماذج الصوت واللغة الكبيرة باستخدام البيانات من ثلاث مجموعات بيانات صوتية: AudioSet وYouTube-8M وVGGSound.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.