Qwen-Audio: تقدم في فهم الصوت الشامل من خلال نماذج صوت-لغة موحدة على نطاق واسع

في الآونة الأخيرة، حظيت نماذج اللغة الصوتية التي تتبع التعليمات باهتمام واسع للتفاعل الصوتي مع البشر. ومع ذلك، فإن غياب النماذج الصوتية المدربة مسبقًا القادرة على التعامل مع أنواع متنوعة من الصوت ومهمات مختلفة قد عرقل التقدم في هذا المجال. نتيجة لذلك، لم تتمكن معظم الأعمال الحالية من دعم مجموعة محدودة فقط من قدرات التفاعل. في هذه الورقة البحثية، نطور نموذج Qwen-Audio ونعالج هذا القصور من خلال توسيع تدريب النموذج الصوتي-اللغوي ليغطي أكثر من 30 مهمة وأنواع صوتية متنوعة مثل الكلام البشري والأصوات الطبيعية والموسيقى والأغاني، مما يسهل فهم الصوت الشامل. ومع ذلك، يمكن أن يؤدي التدريب المشترك المباشر لجميع المهام والقواعد البيانات إلى مشاكل تداخل، حيث تظهر العلامات النصية المرتبطة بقواعد البيانات المختلفة اختلافات كبيرة بسبب الاختلافات في تركيز المهمة واللغة وتفصيل التسمية وبنية النص. لتجاوز مشكلة التداخل الواحد إلى العديد، نصمم بإحكام إطار عمل متعدد المهام عن طريق شروط سلسلة من العلامات الهرمية للمفكك (decoder) لتشجيع مشاركة المعرفة وتلافي التداخل عبر العلامات المشتركة والمحددة على التوالي. بشكل ملفت للنظر، يحقق Qwen-Audio أداءً متميزًا في مهمات المقاييس المختلفة دون الحاجة إلى أي تعديل دقيق خاص بالمهمة، مما يفوق أقرانه. بناءً على قدرات Qwen-Audio، نطور أيضًا Qwen-Audio-Chat، الذي يسمح بالمدخلات من أنواع مختلفة من الأصوات والمدخلات النصية، مما يمكنه من إجراء حوار متعدد الدورات ودعم سيناريوهات مختلفة محورها الصوت.