التصنيف الصوتي بدون تدريب عبر إرشاد القابلية للسماع

مهمة وصف الصوت مشابهة في جوهرها للمهام مثل وصف الصور والفيديوهات. ومع ذلك، فإنها حظيت باهتمام أقل بكثير. نقترح ثلاثة معايير لوصف الصوت -- (i) سلاسة النص المُولَّد، (ii) دقة النص المُولَّد بالنسبة للصوت المدخل، والمعيار المرتبط بهما إلى حد ما (iii) قابلية الاستماع، وهو جودة القدرة على الإدراك بناءً على الصوت فقط. طريقتنا هي طريقة بدون تعلم مسبق (Zero-shot)، أي أننا لا نتعلم كيفية إجراء الوصف. بدلاً من ذلك، يتم الوصف كعملية استدلال تتضمن ثلاثة شبكات تتوافق مع الثلاثة معايير المرغوبة: (i) نموذج لغوي كبير، وفي حالتنا لأسباب تتعلق بالسهولة، GPT-2، (ii) نموذج يوفر درجة التطابق بين ملف صوتي ونص، حيث نستخدم شبكة متعددة الأوضاع تسمى ImageBind لتوفير هذه الدرجة، و (iii) تصنيف النصوص، مدرب باستخدام مجموعة بيانات جمعناها آليًا عن طريق توجيه GPT-4 بمحفزات مصممة لإرشاد إنتاج الجمل القابلة والاستماع وغير القابلة للاستماع. نقدم نتائجنا على مجموعة بيانات AudioCap، مما يظهر أن إرشاد القابلية للاستماع يعزز الأداء بشكل كبير مقارنة بالنموذج الأساسي الذي يفتقر لهذه الغاية.