Command Palette
Search for a command to run...
مجموعة بيانات ترجمات الصوت AudioSetCaps
Date
Size
Publish URL
Paper URL
License
CC BY 4.0
تم إصدار مجموعة البيانات في عام 2024 من قبل باحثين من جامعة نورث وسترن بوليتكنيك، وشركة شيان ليانفينج للتكنولوجيا الصوتية المحدودة، وجامعة نانيانغ التكنولوجية، وجامعة سري، ومعهد الصوتيات، التابع للأكاديمية الصينية للعلوم.AudioSetCaps: إنشاء مجموعة بيانات ترجمة صوتية مُثرية باستخدام نماذج لغة صوتية كبيرة"، تم قبوله بواسطة NeurIPS 24.
AudioSetCaps عبارة عن مجموعة بيانات توضيحية صوتية تحتوي على 6,117,099 ملف صوتي مدته 10 ثوانٍ. يأتي كل ملف صوتي مصحوبًا بعنوان وصفي وثلاثة أزواج من الأسئلة والأجوبة كبيانات وصفية لتوليد العنوان النهائي (ما مجموعه 18,414,789 زوجًا من بيانات الأسئلة والأجوبة).
يتم إنشاؤه باستخدام خط أنابيب توليد آلي لنماذج الصوت واللغة الكبيرة باستخدام البيانات من ثلاث مجموعات بيانات صوتية: AudioSet وYouTube-8M وVGGSound.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.