HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer الزمني الهرمي لتقدير وضع اليد ثلاثي الأبعاد وتمييز الحركات من مقاطع الفيديو الملونة من منظور الشخصي

Yilin Wen Hao Pan Lei Yang Jia Pan Taku Komura Wenping Wang

الملخص

فهم الحركات الديناميكية لليد والإجراءات من خلال مقاطع الفيديو RGB من منظور الشخص الأول (egocentric) يُعد مهمة أساسية لكنها صعبة للغاية بسبب التغطية الذاتية (self-occlusion) والغموض الناتج عنها. ولحل مشكلتي التغطية والغموض، نطور إطارًا يستند إلى مُحول (Transformer) لاستغلال المعلومات الزمنية بهدف التقدير الموثوق. ولاحظنا أن لتقدير وضعية اليد وتقدير الإجراء تباين في الحجم الزمني، كما أن هناك ارتباطًا دلاليًا بينهما، لذا قمنا ببناء هيكلية شبكة مكونة من مُشفرين متحوّلين متتاليين (cascaded transformer encoders)، حيث يستخدم المُشفّر الأول الإشارات الزمنية القصيرة المدى لتقدير وضعية اليد، بينما يقوم المُشفّر الثاني بتجميع معلومات وضعية اليد لكل إطار مع معلومات الكائن على مدى زمني أطول لتحديد الإجراء. تحقق طريقة عملنا نتائج تنافسية على بحثين رئيسيين لإجراءات اليد من منظور الشخص الأول، وهما FPHA وH2O. كما أظهرت الدراسات التحليلية الموسعة صحة الاختيارات المعمارية التي اعتمدناها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp