HyperAIHyperAI
منذ 17 أيام

توليد الكلام والإيماءات من السياق الثلاثي النمط المكوّن من النص والصوت وهوية المتكلم

Youngwoo Yoon, Bok Cha, Joo-Haeng Lee, Minsu Jang, Jaeyeon Lee, Jaehong Kim, Geehyuk Lee
توليد الكلام والإيماءات من السياق الثلاثي النمط المكوّن من النص والصوت وهوية المتكلم
الملخص

بالنسبة للوكلاء البشريين، بما في ذلك الصور الافتراضية والروبوتات الاجتماعية، فإن إجراء إيماءات مناسبة أثناء التحدث أمر بالغ الأهمية في التفاعل بين الإنسان والوكلاء. تُحسّن الإيماءات المرافقة للكلام تجربة التفاعل وتجعل الوكلاء يبدون حيّين. ومع ذلك، يُعد إنشاء إيماءات تشبه البشر صعبًا بسبب نقص الفهم حول كيفية إجراء الناس للإيماءات. تسعى النهج القائمة على البيانات إلى تعلّم مهارات الإيماء من خلال عروض بشرية، لكن الطبيعة الغامضة والفردية للإيماءات تعيق عملية التعلّم. في هذا البحث، نقدّم نموذجًا تلقائيًا لإنشاء الإيماءات يستخدم السياق متعدد الوسائط المتمثل في النص الصوتي، والصوت، وتحديد الهوية الصوتية لضمان إنتاج إيماءات تشبه البشر. وباستخدام سياق متعدد الوسائط ونموذج تدريب مُعادٍ (adversarial training)، يُنتج النموذج إيماءات تشبه البشر وتتناسب تمامًا مع محتوى الكلام ونغمته. كما نقدّم أيضًا مقياسًا كميًا جديدًا لتقييم نماذج إنشاء الإيماءات. أظهرت التجارب باستخدام هذا المقياس الجديد والتقييم الموضوعي من قبل البشر أن النموذج المقترح يتفوّق على النماذج الحالية القائمة على التوليد من النهاية إلى النهاية. ونؤكد أيضًا قدرة النموذج على العمل مع الصوت المُولّد اصطناعيًا في سياقات محدودة، ونُظهر أن أنماط إيماءات مختلفة يمكن إنشاؤها لنفس الكلام من خلال تحديد هويات متحدثين مختلفة في فضاء التضمين الأسلوبي الذي تم تعلّمه من مقاطع فيديو لمحادثات مختلفة. يُتاح كل كود وبيانات البحث على الرابط التالي: https://github.com/ai4r/Gesture-Generation-from-Trimodal-Context.

توليد الكلام والإيماءات من السياق الثلاثي النمط المكوّن من النص والصوت وهوية المتكلم | أحدث الأوراق البحثية | HyperAI