HyperAIHyperAI
منذ 9 أيام

الوصف الصوتي باستخدام الوحدات المتكررة المُنظَّمة

Ayşegül Özkaya Eren, Mustafa Sert
الوصف الصوتي باستخدام الوحدات المتكررة المُنظَّمة
الملخص

يُعدّ التوصيف الصوتي (Audio Captioning) مهمةً مُقترحة حديثًا تهدف إلى إنشاء وصف نصي تلقائي لقطعة صوتية معطاة. في هذه الدراسة، تم تقديم معمارية شبكة عميقة مبتكرة تستخدم تمثيلات صوتية (Audio Embeddings) للتنبؤ بوصف الصوت. وبالهدف من استخلاص ميزات صوتية إضافةً إلى طاقات ميل اللوغاريتمية (log Mel energies)، تم استخدام نموذج تمثيل الصوت VGGish لاستكشاف جدوى استخدام التمثيلات الصوتية في مهمة التوصيف الصوتي. وتُشفَّر المدخلات الصوتية والنصية بشكل منفصل في المعمارية المقترحة، ثم تُدمج قبل مرحلة التشفير (التفكيك). وتتم عملية تشفير الصوت باستخدام وحدة التكرار الموجهة الثنائية (Bi-directional Gated Recurrent Unit - BiGRU)، بينما تُستخدم وحدة GRU في مرحلة تشفير النص. وبعد ذلك، تم تقييم النموذج باستخدام مجموعة بيانات أداء التوصيف الصوتي الحديثة، وهي مجموعة Clotho، لمقارنة النتائج التجريبية مع ما ورد في الأدبيات. وأظهرت النتائج التجريبية أن النموذج العميق القائم على BiGRU يتفوق على النتائج الحالية في الحالة المتقدمة (State of the Art).

الوصف الصوتي باستخدام الوحدات المتكررة المُنظَّمة | أحدث الأوراق البحثية | HyperAI