HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف المتماسك القائم على Transformer على يدين تُجريان عمليات تلاعب بالأشياء

Seungryul Baek Elkhan Ismayilzada Seongyeong Lee Jihyeon Kim Chanwoo Kim Hoseong Cho

الملخص

حصل فهم تفاعلات اليد بالجسم من مقاطع الفيديو ذات المنظور الذاتي على اهتمام كبير مؤخرًا. حتى الآن، تعتمد معظم الطرق على ميزات الشبكة العصبية التلافيفية (CNN) المُدمجة مع الترميز الزمني باستخدام الشبكة العصبية ذات الذاكرة الطويلة القصيرة (LSTM) أو الشبكة العصبية التلافيفية الرسومية (GCN) لتوفير فهم موحد للذراعين، والجسم، وتفاعلاتهما. في هذه الورقة، نقترح إطارًا موحدًا يستند إلى مُحول (Transformer) يوفر فهمًا أفضل للذراعين اللتين تُعالجان جسمًا ما. في إطارنا، نُدخل الصورة الكاملة التي تُظهر اليدَين، والجسم، وتفاعلاتهما كمدخل، ونُقدّر معًا ثلاث معلومات من كل إطار: وضعية اليدَين، ووضعية الجسم، ونوع الجسم. ثم، نتنبأ بفئة الإجراء المُحددة بواسطة تفاعلات اليد بالجسم بناءً على الفيديو بأكمله، باستخدام المعلومات المُقدّرة مع خريطة الاتصال التي تُشفر التفاعل بين اليدَين والجسم. أُجريت تجارب على مجموعتي بيانات معيار H2O وFPHA، وأظهرنا تفوق طريقة العمل لدينا من حيث الدقة، حيث حققت أفضل أداء ممكن حاليًا. كما أظهرت الدراسات التحليلية فعالية كل وحدة مُقترحة في الإطار.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp