HyperAIHyperAI

Command Palette

Search for a command to run...

VStyle: معيار لتكييف نبرة الصوت باستخدام تعليمات شفهية

الملخص

أصبحت نماذج اللغة المنطوقة (SLMs) نموذجًا موحدًا لفهم وتكوين الكلام، مما يمكّن من تفاعل طبيعي بين الإنسان والآلة. ومع ذلك، فإن معظم التقدم المحرز ركّز على الدقة الدلالية ومطابقة التعليمات، بينما حظيت قدرة نماذج SLMs على تكيّف أسلوب التحدث بناءً على أوامر منطوقة بعناية محدودة نسبيًا. نقدّم في هذا العمل مهمة تكيّف النبرة الصوتية (VSA)، وهي مهمة جديدة تُختبر من خلالها قدرة نماذج SLMs على تعديل أسلوب التحدث، مثل النبرة الصوتية أو الإيقاع الصوتي أو الشخصية، استجابةً للأوامر اللغوية المنطوقة الطبيعية. ولدراسة هذه المهمة، نقدّم VStyle، وهو معيار ثنائي اللغة (الصينية والإنجليزية) يغطي أربع فئات من توليد الكلام: الخصائص الصوتية، التعليمات باللغة الطبيعية، لعب الأدوار، والتعاطف الضمني. كما نُقدّم إطارًا يُسمى "نموذج اللغة الصوتية الكبير كمُقيّم" (LALM as a Judge)، الذي يُقيّم النواتج تدريجيًا من حيث الالتزام بالنص، والالتزام بنمط الصوت، والطبيعية، مما يضمن تقييمًا قابلاً للتكرار وعالي الموضوعية. تُظهر التجارب التي أُجريت على أنظمة تجارية ونماذج SLM مفتوحة المصدر أن النماذج الحالية تواجه قيودًا واضحة في التكيّف القابل للتحكم بنمط الصوت، مما يبرز جوانب التميز والتحدي في هذه المهمة. وبإطلاق VStyle وأدوات تقييمها، نهدف إلى توفير أساس متين للمجتمع العلمي لتعزيز التفاعل الصوتي المتمحور حول الإنسان. يُمكن الوصول إلى مجموعة البيانات والكود المصدر على الموقع الإلكتروني التالي:https://junzhan2000.github.io/VStyle.github.io/{الصفحة الرئيسية للمشروع}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VStyle: معيار لتكييف نبرة الصوت باستخدام تعليمات شفهية | مستندات | HyperAI