HyperAIHyperAI

Command Palette

Search for a command to run...

الوصف الصوتي باستخدام الوحدات المتكررة المُنظَّمة

Ayşegül Özkaya Eren Mustafa Sert

الملخص

يُعدّ التوصيف الصوتي (Audio Captioning) مهمةً مُقترحة حديثًا تهدف إلى إنشاء وصف نصي تلقائي لقطعة صوتية معطاة. في هذه الدراسة، تم تقديم معمارية شبكة عميقة مبتكرة تستخدم تمثيلات صوتية (Audio Embeddings) للتنبؤ بوصف الصوت. وبالهدف من استخلاص ميزات صوتية إضافةً إلى طاقات ميل اللوغاريتمية (log Mel energies)، تم استخدام نموذج تمثيل الصوت VGGish لاستكشاف جدوى استخدام التمثيلات الصوتية في مهمة التوصيف الصوتي. وتُشفَّر المدخلات الصوتية والنصية بشكل منفصل في المعمارية المقترحة، ثم تُدمج قبل مرحلة التشفير (التفكيك). وتتم عملية تشفير الصوت باستخدام وحدة التكرار الموجهة الثنائية (Bi-directional Gated Recurrent Unit - BiGRU)، بينما تُستخدم وحدة GRU في مرحلة تشفير النص. وبعد ذلك، تم تقييم النموذج باستخدام مجموعة بيانات أداء التوصيف الصوتي الحديثة، وهي مجموعة Clotho، لمقارنة النتائج التجريبية مع ما ورد في الأدبيات. وأظهرت النتائج التجريبية أن النموذج العميق القائم على BiGRU يتفوق على النتائج الحالية في الحالة المتقدمة (State of the Art).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp