HyperAIHyperAI
منذ 17 أيام

A2J-Transformer: شبكة محول المرجع إلى المفصل لتقدير وضع اليد ثلاثية الأبعاد التفاعلية من صورة RGB واحدة

Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng, Zhiguo Cao, Joey Tianyi Zhou
A2J-Transformer: شبكة محول المرجع إلى المفصل لتقدير وضع اليد ثلاثية الأبعاد التفاعلية من صورة RGB واحدة
الملخص

يُعدّ تقدير وضعية اليد ثلاثية الأبعاد من صورة RGB واحدة مهمةً صعبة، نظرًا لوجود احتمالات عالية للتداخل الذاتي والتداخل بين اليدين، وتشابه الأنماط البصرية بين اليدَين، وصعوبة تحديد الموضع الثلاثي الأبعاد للمفاصل من الصورة الثنائية الأبعاد، وغيرها من التحديات. وللتصدي لهذه التحديات، نقترح توسيع طريقة A2J – وهي أحدث طريقة قائمة على البيانات العميقة لتقدير وضعية اليد الفردية ثلاثية الأبعاد – لتطبيقها في مجال الصور RGB تحت ظروف تفاعل اليدَين. ويتمثل الفكرة الأساسية لدينا في تمكين A2J من قدرة قوية على التمييز بين التفاصيل المحلية والذكاء الشامل حول البنية المفصلية، وذلك لالتقاط التفاصيل الدقيقة المحلية لليدَين المتفاعلتين والمؤشرات الهيكلية الشاملة بين المفاصل معًا. ولتحقيق ذلك، تم تطوير A2J ضمن إطار الترميز والفك غير المحلي المستند إلى المُحول (Transformer) لبناء A2J-Transformer. ويتميز هذا النموذج بثلاثة مزايا رئيسية مقارنةً بـ A2J. أولاً، تم بناء انتباه ذاتي عبر نقاط المرجع المحلية لجعلها على دراية بالسياق المكاني الشامل، مما يعزز القدرة على التقاط التلميحات الهيكلية للمفاصل ومقاومة التداخل. ثانيًا، تُعامل كل نقطة مرجعية كاستعلام قابل للتعلم مع تعلم تلقائي للسمات، مما يُحسّن قدرة التكيف مع الأنماط، بخلاف التمثيل المحلي الثابت الذي تُستخدمه النسخ السابقة. وأخيرًا، تُحدد نقاط المرجع في الفضاء ثلاثي الأبعاد بدلًا من الفضاء ثنائي الأبعاد كما في A2J، مما يسمح باستغلال التنبؤ بالوضع ثلاثي الأبعاد بشكل أكثر فعالية. وأظهرت التجارب على مجموعة InterHand 2.6M الصعبة أن A2J-Transformer يمكنه تحقيق أفضل أداء حاليًا دون الحاجة إلى نموذج مسبق (بتحسن قدره 3.38 مم في معيار MPJPE في حالة اليدَين)، كما يمكن تطبيقه بنجاح في مجال البيانات العميقة مع قدرة تعميم قوية.

A2J-Transformer: شبكة محول المرجع إلى المفصل لتقدير وضع اليد ثلاثية الأبعاد التفاعلية من صورة RGB واحدة | أحدث الأوراق البحثية | HyperAI