منذ 6 أشهر

الملخص

نستكشف مشكلة وصف الصوت (Audio Captioning): أي إنتاج وصف بلغة طبيعية لأي نوع من الصوت في البيئة الواقعية، وهي مشكلة لم تُدرَس بشكل كافٍ في الأبحاث السابقة. نقدّم مجموعة بيانات ضخمة تضم 46 ألف مقاطع صوتية مصحوبة بزوج من النصوص المكتوبة يدوياً، تم جمعها عبر منصات التوظيف الجماعي (crowdsourcing) على مجموعة بيانات AudioSet. تُظهر دراساتنا التجريبية المفصلة أن النصوص التي جمعناها تتماشى فعلاً مع المدخلات الصوتية، كما تكشف عن الأشكال الفعّالة من تمثيل الصوت ونماذج الوصف التي تُحقق أداءً جيداً في وصف الصوت. ومن خلال تجارب واسعة، نقترح كذلك مكوّنين جديدين يسهمان في تحسين أداء وصف الصوت: معالج متعدد المقاييس من الأعلى إلى الأسفل (top-down multi-scale encoder) والانتباه الدلالي المتماثل (aligned semantic attention).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار