HyperAI

Audio Captioning

توصيف الصوت هو مهمة تحويل المحتوى الصوتي إلى وصف نصي. هدفها الأساسي هو التقاط خصائص الصوت عبر مُشفِّر الصوت ومن ثم توليد وصف بلغة طبيعية باستخدام مفكِّك التشفير، لتحقيق فهم دقيق وتعبير عن المحتوى الصوتي. تحتوي هذه المهمة على قيمة تطبيقية كبيرة في تحليل المحتوى المتعدد الوسائط وفي مساعدة ذوي الإعاقة السمعية على فهم المعلومات الصوتية. ومع ذلك، فإن مقاييس تقييم الترجمة الآلية وتوصيف الصور الحالية ليست مناسبة تمامًا لتقييم جودة الوصف الصوتي، لذا يجري البحث عن طرق تقييم جديدة مثل النماذج اللغوية المدربة مسبقًا مثل Sentence-BERT.