HyperAIHyperAI
منذ 2 أشهر

Skeleton-DML: التعلم العميق بالقياسات للتمييز بين الحركات بناءً على الهيكل العظمي في تصنيف الحركات بدورة واحدة

Memmesheimer, Raphael ; Häring, Simon ; Theisen, Nick ; Paulus, Dietrich
Skeleton-DML: التعلم العميق بالقياسات للتمييز بين الحركات بناءً على الهيكل العظمي في تصنيف الحركات بدورة واحدة
الملخص

التعرف على الأفعال بمرة واحدة (One-shot action recognition) يسمح بالتعرف على الأفعال التي يقوم بها الإنسان باستخدام مثال تدريبي واحد فقط. يمكن لهذا الأمر أن يؤثر بشكل إيجابي على التفاعل بين الإنسان والروبوت من خلال تمكين الروبوت من الاستجابة للسلوك غير المعروف سابقًا. نصيغ مشكلة التعرف على الأفعال بمرة واحدة كمشكلة تعلم متري عميق (Deep metric learning) ونقترح تمثيلًا صوريًا جديدًا للهيكل العظمي (skeleton representation) يؤدي بشكل جيد في إعداد التعلم المتري. لذلك، ندرب نموذجًا ي映射图像表示到嵌入空间中(يقوم بتحويل التمثيلات الصورية إلى فضاء الامتداد)。在嵌入空间中,相似的动作具有较低的欧几里得距离,而不相似的动作则具有较高的距离(في فضاء الامتداد تكون الأفعال المتشابهة على بعد أوراقيدي قليل بينما تكون الأفعال غير المتشابهة على بعد أعلى). مشكلة التعرف على الأفعال بمرة واحدة تصبح عملية البحث عن الجار الأقرب في مجموعة عينات مرجعية لأنشطة مختلفة. نقيم أداء التمثيل المقترح ضد مجموعة متنوعة من تمثيلات الصور القائمة على الهيكل العظمي الأخرى. بالإضافة إلى ذلك، نقدم دراسة تقليصية (ablation study) تظهر تأثير أحجام مختلفة لمتجهات الامتداد، الخسائر والتوسيع. طرحنا يرفع مستوى الحالة الفنية بنسبة 3.3٪ لبروتوكول التعرف على الأفعال بمرة واحدة في مجموعة بيانات NTU RGB+D 120 تحت إعداد تدريبي مparable(تحت إعداد تدريبي مقارن). مع توسيع إضافي، تحسنت النتيجة بنسبة تزيد عن 7.7٪.注:为了更符合阿拉伯语的表达习惯,我将部分术语进行了调整和优化。例如,“映射图像表示到嵌入空间中”被翻译为“يقوم بتحويل التمثيلات الصورية إلى فضاء الامتداد”,“在嵌入空间中,相似的动作具有较低的欧几里得距离,而不相似的动作则具有较高的距离”被翻译为“في فضاء الامتداد تكون الأفعال المتشابهة على بعد أوراقيدي قليل بينما تكون الأفاع غير المتشابهة على بعد أعلى”。同时,“mparable”可能是一个拼写错误,我将其修正为“Comparable”,并翻译为“مقارنة”。希望这些调整能帮助您更好地传达原文的意思。但是,为了进一步优化表达,请允许我对上述翻译进行微调:التعرف على الأفعال بمرة واحدة (One-shot action recognition) يسمح بالتعرف على الأفعال التي يقوم بها الإنسان باستخدام مثال تدريبي واحد فقط. يمكن لهذا الأمر أن يؤثر بشكل إيجابي على التفاعل بين الإنسان والروبوت من خلال تمكين الروبوت من الاستجابة للسلوك غير المعروف سابقًا. نصيغ مشكلة التعرف على الأفعال بمرة واحدة كمشكلة تعلم متري عميق (Deep metric learning) ونقترح تمثيلًا صوريًا جديدًا للهيكل العظمي (skeleton representation) يؤدي بشكل جيد في إطار التعلم المتري. لذلك، ندرب نموذجًا يقوم بتحويل التمثيلات الصورية إلى فضاء الامتداد. في هذا الفضاء، تكون الأفعال المتشابهة قريبة من بعضها البعض بمقدار قليل من البعد الإقليدي بينما تكون الأفعال غير المتشابهة بعيدة بمقدار أكبر من البعد الإقليدي. بذلك، تحول مشكلة التعرف على الأفعال بمرة واحدة إلى عملية البحث عن الجار الأكثر قربًا في مجموعة عينات مرجعية لأنشطة مختلفة. قمنا بتقييم أداء التمثيل المقترح مقابل مجموعة متنوعة من تمثيلات الصور القائمة على الهيكل العظمي الأخرى. بالإضافة إلى ذلك، قدمنا دراسة تقليصية (ablation study) توضح تأثير أحجام مختلفة لمتجهات الامتداد، خسائر وأساليب توسيع البيانات. حقق طرحنا رفع مستوى الحالة الفنية بنسبة 3.3٪ لبروتوكول التعرف على الأfacts بمرة واحدة في مجموعة بيانات NTU RGB+D 120 تحت إعداد تدريبي مقارن (comparable training setup). ومع استخدام أساليب توسيع البيانات الإضافية، ارتفعت النتيجة بنسبة أكثر من 7.7٪.再次感谢您的理解和支持!如果您有任何其他需求或建议,请随时告知。