HyperAIHyperAI

Command Palette

Search for a command to run...

BEAT: مجموعة بيانات متعددة الوسائط كبيرة الحجم للسياق العاطفي والمعنوي لتركيب الإيماءات الحوارية

Haiyang Liu Zihao Zhu Naoya Iwamoto Yichen Peng Zhengqing Li You Zhou Elif Bozkurt Bo Zheng

الملخص

تحقيق توليد حركات حوارية واقعية وحيوية وتشبه البشر، مع تقييد هذه الحركات ببيانات متعددة الوسائط، لا يزال يمثل مشكلة غير محلولة بسبب نقص البيانات المتاحة، والأنماط النمذجة، ومقاييس التقييم القياسية. ولحل هذه المشكلة، قمنا ببناء مجموعة بيانات تُسمى Body-Expression-Audio-Text (BEAT)، والتي تتميز بـ: i) 76 ساعة من البيانات عالية الجودة متعددة الوسائط، تم جمعها من 30 متحدثًا يتحدثون بثمانية مشاعر مختلفة وبأربعة لغات مختلفة، وii) 32 مليون تسمية على مستوى الإطارات تتعلق بالمشاعر والارتباط المعنى. تُظهر التحليلات الإحصائية المُنجزة على BEAT ارتباط الحركات الحوارية بالتعبيرات الوجهية، والمشاعر، والمعنى، بالإضافة إلى الارتباط المعروف مع الصوت، والنص، ومعرفة المتحدث. استنادًا إلى هذه الملاحظة، نقترح نموذجًا أساسيًا يُسمى الشبكة الحركية المتسلسلة (Cascaded Motion Network - CaMN)، التي تدمج ستة وسائط مُدرَّجة في بنية متسلسلة لغرض توليد الحركات. ولتقييم الارتباط المعنى، نقدّم مقياسًا جديدًا يُسمى "معدل استرجاع الحركة ذات الصلة بالمعنى" (Semantic Relevance Gesture Recall - SRGR). تُظهر التجارب النوعية والكمية صحة هذا المقياس، ونوعية بيانات الحقيقة المطلقة، وأداء النموذج الأساسي المتميز في مستوى التقنية الحالية. وبقدر معرفتنا، فإن BEAT تمثل أكبر مجموعة بيانات مسح حركي مخصصة لدراسة الحركات البشرية، وقد تسهم في مجالات بحثية متعددة، منها توليد الحركات القابلة للتحكم، والتحليل عبر الوسائط المختلفة، وتمييز الحركات العاطفية. تتوفر البيانات والكود والنماذج على الرابط: https://pantomatrix.github.io/BEAT/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
BEAT: مجموعة بيانات متعددة الوسائط كبيرة الحجم للسياق العاطفي والمعنوي لتركيب الإيماءات الحوارية | مستندات | HyperAI