HyperAIHyperAI

Command Palette

Search for a command to run...

AudioCaps: إنشاء عناوين وصفية للصوتيات في البيئة الطبيعية

Chris Dongjoo Kim Byeongchang Kim Hyunmin Lee Gunhee Kim

الملخص

نستكشف مشكلة وصف الصوت (Audio Captioning): أي إنتاج وصف بلغة طبيعية لأي نوع من الصوت في البيئة الواقعية، وهي مشكلة لم تُدرَس بشكل كافٍ في الأبحاث السابقة. نقدّم مجموعة بيانات ضخمة تضم 46 ألف مقاطع صوتية مصحوبة بزوج من النصوص المكتوبة يدوياً، تم جمعها عبر منصات التوظيف الجماعي (crowdsourcing) على مجموعة بيانات AudioSet. تُظهر دراساتنا التجريبية المفصلة أن النصوص التي جمعناها تتماشى فعلاً مع المدخلات الصوتية، كما تكشف عن الأشكال الفعّالة من تمثيل الصوت ونماذج الوصف التي تُحقق أداءً جيداً في وصف الصوت. ومن خلال تجارب واسعة، نقترح كذلك مكوّنين جديدين يسهمان في تحسين أداء وصف الصوت: معالج متعدد المقاييس من الأعلى إلى الأسفل (top-down multi-scale encoder) والانتباه الدلالي المتماثل (aligned semantic attention).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp