التقدير غير المشرف للوضعية ثلاثية الأبعاد للاعتراف الهرمي بمقاطع الفيديو الرقصية

يُعتبر الخبراء في الرقص غالبًا أن الرقص هو تسلسل هرمي للمعلومات، يمتد من المستوى الأدنى (الصور الخام، سلاسل الصور) إلى المستويات الوسطى (أوضاع الإنسان وحركات أجزاء الجسم) والمستوى الأعلى (نوع الرقص). نقترح إطارًا هرميًا لتمييز مقاطع الفيديو للرقص (HDVR). يعمل HDVR على تقدير سلاسل الوضعيات ثنائية الأبعاد، وتتبع الراقصين، ومن ثم تقدير الوضعيات ثلاثية الأبعاد المقابلة ومعلمات التصوير من 3D إلى 2D بشكل متزامن، دون الحاجة إلى الحقيقة الأرضية للوضعيات ثلاثية الأبعاد. على عكس معظم الطرق التي تعمل على شخص واحد فقط، فإن تتبعنا يعمل على عدة راقصين وفي حالات الاختفاء الجزئي. من خلال سلسلة الوضعيات ثلاثية الأبعاد المقدرة، يستخرج HDVR حركات أجزاء الجسم ومنها نوع الرقص. يتم تقديم التمثيل الهرمي الناتج للرقص بطريقة يمكن تفسيرها من قبل الخبراء. لتجاوز الضوضاء وغموض التوافق بين الإطارات، نفرض سلاسة الحركة المكانية والزمنية والاستمرارية الضوئية عبر الزمن. نستخدم شبكة LSTM لاستخراج سلاسل حركات ثلاثية الأبعاد منها نتعرف على نوع الرقص. بالنسبة للتجارب، قمنا بتحديد 154 نوعًا من الحركات لـ 16 جزءًا من الجسم، وجمعنا مجموعة بيانات جديدة لرقص جامعة إلينوي (UID)، تحتوي على 1143 مقطع فيديو لنine أنواع رقص تغطي 30 ساعة، مصحوبة بتصنيفات الحركة والنوع. تُظهر نتائج تجاربنا أن خوارزمياتنا تتفوق على أفضل الطرق الحديثة لتقدير الوضعيات ثلاثية الأبعاد، مما يعزز أيضًا أداء تمييز الرقص لدينا.请注意,"nine" 在阿拉伯文中应为 "تسعة" 而不是 "Nine"。以下是修正后的版本:يُعتبر الخبراء في الرقص غالبًا أن الرقص هو تسلسل هرمي للمعلومات، يمتد من المستوى الأدنى (الصور الخام، سلاسل الصور) إلى المستويات الوسطى (أوضاع الإنسان وحركات أجزاء الجسم) والمستوى الأعلى (نوع الرقص). نقترح إطارًا هرميًا لتمييز مقاطع الفيديو للرقص (HDVR). يعمل HDVR على تقدير سلاسل الوضعيات ثنائية الأبعاد، وتتبع الراقصين، ومن ثم تقدير الوضعيات ثلاثية الأبعاد المقابلة ومعلمات التصوير من 3D إلى 2D بشكل متزامن، دون الحاجة إلى الحقيقة الأرضية للوضعيات ثلاثية الأبعاد. على عكس معظم الطرق التي تعمل على شخص واحد فقط، فإن تتبعنا يعمل على عدة راقصين وفي حالات الاختفاء الجزئي. من خلال سلسلة الوضعيات ثلاثية الأبعاد المقدرة، يستخرج HDVR حركات أجزاء الجسم ومنها نوع الرقص. يتم تقديم التمثيل الهرمي الناتج للرقص بطريقة يمكن تفسيرها من قبل الخبراء. لتجاوز الضوضاء وغموض التوافق بين الإطارات، نفرض سلاسة الحركة المكانية والزمنية والاستمرارية الضوئية عبر الزمن. نستخدم شبكة LSTM لاستخراج سلاسل حركات ثلاثية الأبعاد منها نتعرف على نوع الرقص. بالنسبة للتجارب,قمنا بتحديد 154 نوعًا من الحركات لـ 16 جزءًا من الجسم، وجمعنا مجموعة بيانات جديدة لرقص جامعة إلينوي (UID)، تحتوي على 1143 مقطع فيديو لتسعة أنواع رقص تغطي 30 ساعة,مصحوبة بتصنيفات الحركة والنوع. تُظهر نتائج تجاربنا أن خوارزمياتنا تتفوق على أفضل الطرق الحديثة لتقدير الوضعيات ثلاثية الأبعاد، مما يعزز أيضًا أداء تمييز الرقص لدينا.