تمكين التحكم التآزري الكامل في الجسم في توليد الحركة المرافقة للكلام المستند إلى الدفعات

تتناول الطرق الحالية لإنشاء الحركة المتزامنة مع الكلام عادةً التركيز على حركات الجزء العلوي من الجسم فقط، والتي تتوافق مع محتوى الكلام، بينما تفتقر إلى دعم التحكم الدقيق في الحركة الشاملة للجسم بأكمله بناءً على تعليمات النص، مثل الكلام أثناء المشي. وتتمثل التحديات الرئيسية في: 1) عدم وجود حركات شاملة للجسم بشكل كبير في مجموعات البيانات الحالية التي تربط بين الكلام والحركة، مما يجعل مجموعة واسعة من الأنشطة البشرية الشائعة خارج نطاق التدريب؛ 2) هذه المجموعات أيضًا تفتقر إلى التعليمات المُشَرَّحة للمستخدم. لمواجهة هذه التحديات، نقترح نظام SynTalker (سينتوكير)، الذي يستخدم مجموعة بيانات النص إلى الحركة الجاهزة كمصدر مساعد لتعويض الحركات الشاملة للجسم والمُشَرَّحات المفقودة. تتكون الإسهامات التقنية الأساسية من جزأين رئيسيين: الأول هو عملية التدريب متعددة المراحل التي تحصل على فضاء تمثيلي متناسق للحركة والكلام والتعليمات رغم الاختلاف الكبير في توزيع الحركات بين مجموعتي البيانات (الكلام إلى الحركة والنص إلى الحركة). أما الثاني فهو عملية الاستدلال الشرطي القائمة على الانتشار، والتي تستفيد من استراتيجية الفصل ثم الجمع لتحقيق السيطرة الدقيقة على أجزاء الجسم المحلية. وقد أجريت العديد من التجارب الواسعة لتأكيد أن نهجنا يدعم التحكم الدقيق والمرونة في إنشاء الحركة الشاملة للجسم بناءً على كل من الكلمات وتعليمات المستخدم، وهو ما يتجاوز قدرات الطرق الموجودة حاليًا.