HyperAIHyperAI
منذ 17 أيام

التعرف المتماسك القائم على Transformer على يدين تُجريان عمليات تلاعب بالأشياء

{Seungryul Baek, Elkhan Ismayilzada, Seongyeong Lee, Jihyeon Kim, Chanwoo Kim, Hoseong Cho}
التعرف المتماسك القائم على Transformer على يدين تُجريان عمليات تلاعب بالأشياء
الملخص

حصل فهم تفاعلات اليد بالجسم من مقاطع الفيديو ذات المنظور الذاتي على اهتمام كبير مؤخرًا. حتى الآن، تعتمد معظم الطرق على ميزات الشبكة العصبية التلافيفية (CNN) المُدمجة مع الترميز الزمني باستخدام الشبكة العصبية ذات الذاكرة الطويلة القصيرة (LSTM) أو الشبكة العصبية التلافيفية الرسومية (GCN) لتوفير فهم موحد للذراعين، والجسم، وتفاعلاتهما. في هذه الورقة، نقترح إطارًا موحدًا يستند إلى مُحول (Transformer) يوفر فهمًا أفضل للذراعين اللتين تُعالجان جسمًا ما. في إطارنا، نُدخل الصورة الكاملة التي تُظهر اليدَين، والجسم، وتفاعلاتهما كمدخل، ونُقدّر معًا ثلاث معلومات من كل إطار: وضعية اليدَين، ووضعية الجسم، ونوع الجسم. ثم، نتنبأ بفئة الإجراء المُحددة بواسطة تفاعلات اليد بالجسم بناءً على الفيديو بأكمله، باستخدام المعلومات المُقدّرة مع خريطة الاتصال التي تُشفر التفاعل بين اليدَين والجسم. أُجريت تجارب على مجموعتي بيانات معيار H2O وFPHA، وأظهرنا تفوق طريقة العمل لدينا من حيث الدقة، حيث حققت أفضل أداء ممكن حاليًا. كما أظهرت الدراسات التحليلية فعالية كل وحدة مُقترحة في الإطار.