HyperAIHyperAI
منذ 8 أيام

التعلم المتناغم للميزات لتقدير وضعية اليد والجسم التفاعلي

{Shaoli Huang, Zengsheng Kuang, Huan Yao, Changxing Ding, Zhifeng Lin}
التعلم المتناغم للميزات لتقدير وضعية اليد والجسم التفاعلي
الملخص

تقدير وضع اليد والجسم معًا من صورة واحدة يُعد أمرًا بالغ الصعوبة نظرًا لحدوث احتجاز شديد غالبًا ما يحدث عند تفاعل اليد مع الجسم. تُركّز الطرق الحالية عادةً على استخلاص ميزات خشنة لليد والجسم من خلفية واحدة، ثم تعزيز هذه الميزات بشكل إضافي من خلال التفاعل المتبادل عبر وحدات تفاعلية. ومع ذلك، فإن هذه الدراسات تتجاهل غالبًا أن اليد والجسم يتنافسان في عملية استخلاص الميزات، نظرًا لأن الخلفية تُعامل كلاهما ككائنين رئيسيين، وغالبًا ما يحجب أحدهما الآخر. في هذه الورقة، نقترح شبكة تعلم ميزات متناغمة جديدة (HFL-Net). تُقدّم HFL-Net إطارًا جديدًا يجمع بين مزايا الخلفيات الأحادية والثنائية: حيث تُشترك في معلمات الطبقات التلافيفية المنخفضة والمرتفعة من نموذج ResNet-50 الشائع بين اليد والجسم، بينما تُترك الطبقات المتوسطة دون مشاركتها. يُمكّن هذا الاستراتيجية الطبقات المتوسطة من استخلاص اليد والجسم كأهداف منفردة، مما يُقلل من التنافس في استخلاص الميزات. كما تُجبر الطبقات المرتفعة المشتركة على توليد ميزات متناغمة، مما يُسهل تعزيز الميزات المتبادلة. وبالتحديد، نقترح تعزيز ميزة اليد من خلال دمجها مع الميزة في نفس الموقع من تدفق الجسم. ويُستخدم بعد ذلك طبقة انتباه ذاتية لدمج عميقة للميزة المدمجة. تُظهر النتائج التجريبية أن النهج المقترح يتفوّق باستمرار على أحدث الطرق على قواعد بيانات HO3D وDex-YCB الشهيرة. وبشكل ملحوظ، تفوق أداء نموذجنا في تقدير وضع اليد على أداء الطرق الحالية التي تُركّز فقط على مهمة تقدير وضع اليد الواحدة. يمكن الوصول إلى الكود من خلال: https://github.com/lzfff12/HFL-Net.