HyperAIHyperAI
منذ 18 أيام

Transformer الزمني الهرمي لتقدير وضع اليد ثلاثي الأبعاد وتمييز الحركات من مقاطع الفيديو الملونة من منظور الشخصي

Yilin Wen, Hao Pan, Lei Yang, Jia Pan, Taku Komura, Wenping Wang
Transformer الزمني الهرمي لتقدير وضع اليد ثلاثي الأبعاد وتمييز الحركات من مقاطع الفيديو الملونة من منظور الشخصي
الملخص

فهم الحركات الديناميكية لليد والإجراءات من خلال مقاطع الفيديو RGB من منظور الشخص الأول (egocentric) يُعد مهمة أساسية لكنها صعبة للغاية بسبب التغطية الذاتية (self-occlusion) والغموض الناتج عنها. ولحل مشكلتي التغطية والغموض، نطور إطارًا يستند إلى مُحول (Transformer) لاستغلال المعلومات الزمنية بهدف التقدير الموثوق. ولاحظنا أن لتقدير وضعية اليد وتقدير الإجراء تباين في الحجم الزمني، كما أن هناك ارتباطًا دلاليًا بينهما، لذا قمنا ببناء هيكلية شبكة مكونة من مُشفرين متحوّلين متتاليين (cascaded transformer encoders)، حيث يستخدم المُشفّر الأول الإشارات الزمنية القصيرة المدى لتقدير وضعية اليد، بينما يقوم المُشفّر الثاني بتجميع معلومات وضعية اليد لكل إطار مع معلومات الكائن على مدى زمني أطول لتحديد الإجراء. تحقق طريقة عملنا نتائج تنافسية على بحثين رئيسيين لإجراءات اليد من منظور الشخص الأول، وهما FPHA وH2O. كما أظهرت الدراسات التحليلية الموسعة صحة الاختيارات المعمارية التي اعتمدناها.