التصنيف الصوتي بدون تدريب مسبق بإرشاد نموذج اللغة الصوتية وكلمات سياق الصوت

الترجمة إلى اللغة العربية:يهدف التسمية الصوتية بدون تدريب مسبق (Zero-shot audio captioning) إلى إنشاء تسميات نصية وصفية تلقائية لمحتوى الصوت دون الحاجة إلى التدريب المسبق لهذا المهمة. يختلف هذا عن التعرف على الكلام، الذي يقوم بترجمة محتوى الصوت الذي يحتوي على لغة متحدثة إلى النص، حيث أن التسمية الصوتية غالبًا ما تكون معنية بالأصوات المحيطة أو الأصوات التي تنتجها الإنسان عند أداء عمل ما. مستوحى من طرق التسمية الوصفية للصور بدون تدريب مسبق، نقترح ZerAuCap، إطار عمل جديد لتقديم ملخصات لمثل هذه الإشارات الصوتية العامة في شكل تسميات نصية دون الحاجة إلى التدريب الخاص بالمهمة. بشكل خاص، يستغل إطارنا العمل نموذج لغوي كبير تم تدريبه مسبقًا (Large Language Model - LLM) لإنشاء النص، والذي يتم إرشاده بواسطة نموذج صوتي-لغوي تم تدريبه مسبقًا لإنتاج تسميات وصفية للأصوات. بالإضافة إلى ذلك، نستخدم كلمات مفتاحية سياق صوتي تحث النموذج اللغوي على إنشاء نص يرتبط بشكل عام بالأصوات. حقق الإطار المقترح لدينا أفضل النتائج الحالية في مجال التسمية الوصفية للصوت بدون تدريب مسبق على قاعدة بيانات AudioCaps و Clotho. رمز البرمجيات الخاص بنا متاح على الرابط: https://github.com/ExplainableML/ZerAuCap.هذه الترجمة تحافظ على الدقة والتدفق والرسمية، وتتوافق مع أسلوب الكتابة العلمي والتكنولوجي.