HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

VStyle: معيار لتكييف نبرة الصوت باستخدام تعليمات شفهية

VStyle: معيار لتكييف نبرة الصوت باستخدام تعليمات شفهية

الملخص

أصبحت نماذج اللغة المنطوقة (SLMs) نموذجًا موحدًا لفهم وتكوين الكلام، مما يمكّن من تفاعل طبيعي بين الإنسان والآلة. ومع ذلك، فإن معظم التقدم المحرز ركّز على الدقة الدلالية ومطابقة التعليمات، بينما حظيت قدرة نماذج SLMs على تكيّف أسلوب التحدث بناءً على أوامر منطوقة بعناية محدودة نسبيًا. نقدّم في هذا العمل مهمة تكيّف النبرة الصوتية (VSA)، وهي مهمة جديدة تُختبر من خلالها قدرة نماذج SLMs على تعديل أسلوب التحدث، مثل النبرة الصوتية أو الإيقاع الصوتي أو الشخصية، استجابةً للأوامر اللغوية المنطوقة الطبيعية. ولدراسة هذه المهمة، نقدّم VStyle، وهو معيار ثنائي اللغة (الصينية والإنجليزية) يغطي أربع فئات من توليد الكلام: الخصائص الصوتية، التعليمات باللغة الطبيعية، لعب الأدوار، والتعاطف الضمني. كما نُقدّم إطارًا يُسمى "نموذج اللغة الصوتية الكبير كمُقيّم" (LALM as a Judge)، الذي يُقيّم النواتج تدريجيًا من حيث الالتزام بالنص، والالتزام بنمط الصوت، والطبيعية، مما يضمن تقييمًا قابلاً للتكرار وعالي الموضوعية. تُظهر التجارب التي أُجريت على أنظمة تجارية ونماذج SLM مفتوحة المصدر أن النماذج الحالية تواجه قيودًا واضحة في التكيّف القابل للتحكم بنمط الصوت، مما يبرز جوانب التميز والتحدي في هذه المهمة. وبإطلاق VStyle وأدوات تقييمها، نهدف إلى توفير أساس متين للمجتمع العلمي لتعزيز التفاعل الصوتي المتمحور حول الإنسان. يُمكن الوصول إلى مجموعة البيانات والكود المصدر على الموقع الإلكتروني التالي:https://junzhan2000.github.io/VStyle.github.io/{الصفحة الرئيسية للمشروع}.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VStyle: معيار لتكييف نبرة الصوت باستخدام تعليمات شفهية | الأوراق البحثية | HyperAI