BABEL: أجساد، أفعال وسلوك مع تسميات باللغة الإنجليزية

فهم دلالات حركة الإنسان -- أي ماذا، وكيف، ولماذا تتم الحركة -- هو مشكلة مهمة تتطلب مجموعات بيانات تحتوي على علامات دلالية للحركات البشرية. تتبع المجموعات البيانات الموجودة إحدى طريقتين. تضم مجموعات البيانات الفيديوية الكبيرة العديد من علامات الحركات ولكنها لا تحتوي على حركات بشرية ثلاثية الأبعاد حقيقية. في المقابل، تحتوي مجموعات البيانات التي يتم التقاط الحركة منها (mocap) على حركات الجسم بدقة ولكنها مقيدة بعدد صغير من الحركات. لمعالجة هذا الأمر، نقدم BABEL، وهي مجموعة بيانات كبيرة تحتوي على علامات لغوية تصف الحركات المنفذة في سلاسل التقاط الحركة. تتكون BABEL من علامات الحركات لنحو 43 ساعة من سلاسل التقاط الحركة من AMASS. هناك مستويان من التجريد للعلامات -- العلامات التسلسلية تصف الحركة العامة في السلسلة، بينما العلامات الإطارية تصف جميع الحركات في كل إطار من السلسلة. يتم تنسيق كل علامة إطار بدقة مع مدّة الحركة المقابلة في سلسلة التقاط الحركة، ويمكن أن تتداخل عدة حركات. يوجد أكثر من 28 ألف علامة تسلسلية وأكثر من 63 ألف علامة إطارية في BABEL، والتي تنتمي إلى أكثر من 250 فئة حركة فريدة. يمكن استخدام العلامات من BABEL لأداء مهام مثل التعرف على الحركات، وتحديد موقع الحركات الزمني، وإنشاء الحركات وغيرها. لإظهار قيمة BABEL كمعيار مرجعي، نقيم أداء النماذج في التعرف على الحركات ثلاثية الأبعاد. نوضح أن BABEL تمثل تحديات تعليمية مثيرة ذات صلة بالسيناريوهات الواقعية، وأنها يمكن أن تكون معيارًا مفيدًا لتقييم التقدم في مجال التعرف على الحركات ثلاثية الأبعاد. تم جعل المجموعة البيانات والطريقة الأساسية وكود التقييم متاحين للأبحاث الأكاديمية عبر الرابط https://babel.is.tue.mpg.de/.