BEAT: مجموعة بيانات متعددة الوسائط كبيرة الحجم للسياق العاطفي والمعنوي لتركيب الإيماءات الحوارية

تحقيق توليد حركات حوارية واقعية وحيوية وتشبه البشر، مع تقييد هذه الحركات ببيانات متعددة الوسائط، لا يزال يمثل مشكلة غير محلولة بسبب نقص البيانات المتاحة، والأنماط النمذجة، ومقاييس التقييم القياسية. ولحل هذه المشكلة، قمنا ببناء مجموعة بيانات تُسمى Body-Expression-Audio-Text (BEAT)، والتي تتميز بـ: i) 76 ساعة من البيانات عالية الجودة متعددة الوسائط، تم جمعها من 30 متحدثًا يتحدثون بثمانية مشاعر مختلفة وبأربعة لغات مختلفة، وii) 32 مليون تسمية على مستوى الإطارات تتعلق بالمشاعر والارتباط المعنى. تُظهر التحليلات الإحصائية المُنجزة على BEAT ارتباط الحركات الحوارية بالتعبيرات الوجهية، والمشاعر، والمعنى، بالإضافة إلى الارتباط المعروف مع الصوت، والنص، ومعرفة المتحدث. استنادًا إلى هذه الملاحظة، نقترح نموذجًا أساسيًا يُسمى الشبكة الحركية المتسلسلة (Cascaded Motion Network - CaMN)، التي تدمج ستة وسائط مُدرَّجة في بنية متسلسلة لغرض توليد الحركات. ولتقييم الارتباط المعنى، نقدّم مقياسًا جديدًا يُسمى "معدل استرجاع الحركة ذات الصلة بالمعنى" (Semantic Relevance Gesture Recall - SRGR). تُظهر التجارب النوعية والكمية صحة هذا المقياس، ونوعية بيانات الحقيقة المطلقة، وأداء النموذج الأساسي المتميز في مستوى التقنية الحالية. وبقدر معرفتنا، فإن BEAT تمثل أكبر مجموعة بيانات مسح حركي مخصصة لدراسة الحركات البشرية، وقد تسهم في مجالات بحثية متعددة، منها توليد الحركات القابلة للتحكم، والتحليل عبر الوسائط المختلفة، وتمييز الحركات العاطفية. تتوفر البيانات والكود والنماذج على الرابط: https://pantomatrix.github.io/BEAT/.