مُشَكِّل الحركة الإيقاعية: توليد إشارات الكلام المصاحبة مع الوعي بالإيقاع باستخدام تضمينات عصبية هرمية

يُعدّ التوليد التلقائي للإشارات الحركية الواقعية المرافقة للكلام مهمة متزايدة الأهمية ولكنها صعبة في إنشاء الوكلاء الافتراضيين المُجسمين. ركّزت الأنظمة السابقة بشكل رئيسي على توليد الإشارات بطريقة نهائية (end-to-end)، مما يُسبب صعوبات في استخلاص الإيقاع الواضح والدلالات بسبب التوازن المعقد لكن الدقيق بين الكلام والحركة. نقدّم طريقة جديدة لتوليد الإشارات المرافقة للكلام تحقق نتائج مقنعة من حيث الإيقاع والدلالات. أما من حيث الإيقاع، فإن نظامنا يحتوي على خطّة تجزئة قائمة على الإيقاع قوية، تضمن الترابط الزمني الصريح بين النطق والإشارات. أما من حيث دلالة الحركة، فقد طوّرنا آلية فعّالة لفصل تضمينات الشبكة العصبية منخفضة المستوى وعالية المستوى للكلام والحركة بناءً على النظرية اللغوية. حيث يتوافق التضمين العالي المستوى مع الدلالة، بينما يرتبط التضمين منخفض المستوى بالاختلافات الدقيقة. وأخيرًا، نُنشئ تقابلًا بين التضمينات الهرمية للكلام والحركة، ما يؤدي إلى توليد إشارات واعية بالإيقاع والدلالات. وتبين التقييمات باستخدام مقاييس موضوعية موجودة، ومقاييس إيقاعية جديدة اقترحناها، والتعليقات البشرية أن طريقة عملنا تتفوّق بوضوح على الأنظمة الرائدة في مجالها.