منذ 6 أشهر

الملخص

يُعدّ التوصيف الصوتي (Audio Captioning) مهمةً مُقترحة حديثًا تهدف إلى إنشاء وصف نصي تلقائي لقطعة صوتية معطاة. في هذه الدراسة، تم تقديم معمارية شبكة عميقة مبتكرة تستخدم تمثيلات صوتية (Audio Embeddings) للتنبؤ بوصف الصوت. وبالهدف من استخلاص ميزات صوتية إضافةً إلى طاقات ميل اللوغاريتمية (log Mel energies)، تم استخدام نموذج تمثيل الصوت VGGish لاستكشاف جدوى استخدام التمثيلات الصوتية في مهمة التوصيف الصوتي. وتُشفَّر المدخلات الصوتية والنصية بشكل منفصل في المعمارية المقترحة، ثم تُدمج قبل مرحلة التشفير (التفكيك). وتتم عملية تشفير الصوت باستخدام وحدة التكرار الموجهة الثنائية (Bi-directional Gated Recurrent Unit - BiGRU)، بينما تُستخدم وحدة GRU في مرحلة تشفير النص. وبعد ذلك، تم تقييم النموذج باستخدام مجموعة بيانات أداء التوصيف الصوتي الحديثة، وهي مجموعة Clotho، لمقارنة النتائج التجريبية مع ما ورد في الأدبيات. وأظهرت النتائج التجريبية أن النموذج العميق القائم على BiGRU يتفوق على النتائج الحالية في الحالة المتقدمة (State of the Art).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار