Command Palette
Search for a command to run...

الملخص
أصبحت نماذج اللغة المنطوقة (SLMs) نموذجًا موحدًا لفهم وتكوين الكلام، مما يمكّن من تفاعل طبيعي بين الإنسان والآلة. ومع ذلك، فإن معظم التقدم المحرز ركّز على الدقة الدلالية ومطابقة التعليمات، بينما حظيت قدرة نماذج SLMs على تكيّف أسلوب التحدث بناءً على أوامر منطوقة بعناية محدودة نسبيًا. نقدّم في هذا العمل مهمة تكيّف النبرة الصوتية (VSA)، وهي مهمة جديدة تُختبر من خلالها قدرة نماذج SLMs على تعديل أسلوب التحدث، مثل النبرة الصوتية أو الإيقاع الصوتي أو الشخصية، استجابةً للأوامر اللغوية المنطوقة الطبيعية. ولدراسة هذه المهمة، نقدّم VStyle، وهو معيار ثنائي اللغة (الصينية والإنجليزية) يغطي أربع فئات من توليد الكلام: الخصائص الصوتية، التعليمات باللغة الطبيعية، لعب الأدوار، والتعاطف الضمني. كما نُقدّم إطارًا يُسمى "نموذج اللغة الصوتية الكبير كمُقيّم" (LALM as a Judge)، الذي يُقيّم النواتج تدريجيًا من حيث الالتزام بالنص، والالتزام بنمط الصوت، والطبيعية، مما يضمن تقييمًا قابلاً للتكرار وعالي الموضوعية. تُظهر التجارب التي أُجريت على أنظمة تجارية ونماذج SLM مفتوحة المصدر أن النماذج الحالية تواجه قيودًا واضحة في التكيّف القابل للتحكم بنمط الصوت، مما يبرز جوانب التميز والتحدي في هذه المهمة. وبإطلاق VStyle وأدوات تقييمها، نهدف إلى توفير أساس متين للمجتمع العلمي لتعزيز التفاعل الصوتي المتمحور حول الإنسان. يُمكن الوصول إلى مجموعة البيانات والكود المصدر على الموقع الإلكتروني التالي:https://junzhan2000.github.io/VStyle.github.io/{الصفحة الرئيسية للمشروع}.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.