الملخص

أصبحت نماذج اللغة المنطوقة (SLMs) نموذجًا موحدًا لفهم وتكوين الكلام، مما يمكّن من تفاعل طبيعي بين الإنسان والآلة. ومع ذلك، فإن معظم التقدم المحرز ركّز على الدقة الدلالية ومطابقة التعليمات، بينما حظيت قدرة نماذج SLMs على تكيّف أسلوب التحدث بناءً على أوامر منطوقة بعناية محدودة نسبيًا. نقدّم في هذا العمل مهمة تكيّف النبرة الصوتية (VSA)، وهي مهمة جديدة تُختبر من خلالها قدرة نماذج SLMs على تعديل أسلوب التحدث، مثل النبرة الصوتية أو الإيقاع الصوتي أو الشخصية، استجابةً للأوامر اللغوية المنطوقة الطبيعية. ولدراسة هذه المهمة، نقدّم VStyle، وهو معيار ثنائي اللغة (الصينية والإنجليزية) يغطي أربع فئات من توليد الكلام: الخصائص الصوتية، التعليمات باللغة الطبيعية، لعب الأدوار، والتعاطف الضمني. كما نُقدّم إطارًا يُسمى "نموذج اللغة الصوتية الكبير كمُقيّم" (LALM as a Judge)، الذي يُقيّم النواتج تدريجيًا من حيث الالتزام بالنص، والالتزام بنمط الصوت، والطبيعية، مما يضمن تقييمًا قابلاً للتكرار وعالي الموضوعية. تُظهر التجارب التي أُجريت على أنظمة تجارية ونماذج SLM مفتوحة المصدر أن النماذج الحالية تواجه قيودًا واضحة في التكيّف القابل للتحكم بنمط الصوت، مما يبرز جوانب التميز والتحدي في هذه المهمة. وبإطلاق VStyle وأدوات تقييمها، نهدف إلى توفير أساس متين للمجتمع العلمي لتعزيز التفاعل الصوتي المتمحور حول الإنسان. يُمكن الوصول إلى مجموعة البيانات والكود المصدر على الموقع الإلكتروني التالي:https://junzhan2000.github.io/VStyle.github.io/{الصفحة الرئيسية للمشروع}.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

VStyle: معيار لتكييف نبرة الصوت باستخدام تعليمات شفهية

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VStyle: معيار لتكييف نبرة الصوت باستخدام تعليمات شفهية

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VStyle: معيار لتكييف نبرة الصوت باستخدام تعليمات شفهية

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng

Jun Zhan Mingyang Han Yuxuan Xie Chen Wang Dong Zhang Kexin Huang Haoxiang Shi DongXiao Wang Tengtao Song Qinyuan Cheng