HyperAIHyperAI
منذ 3 أشهر

ViPLO: رسم بياني ذاتي-حلقي مُشَرَّطٌ بالوضعية بناءً على محول الرؤية للكشف عن التفاعل بين الإنسان والجسم

Jeeseung Park, Jin-Woo Park, Jong-Seok Lee
ViPLO: رسم بياني ذاتي-حلقي مُشَرَّطٌ بالوضعية بناءً على محول الرؤية للكشف عن التفاعل بين الإنسان والجسم
الملخص

كشف تفاعل الإنسان مع الكائن (HOI)، الذي يُحدد مواقع الإنسان والكائنات ويستنتج العلاقات بينهما، دورًا مهمًا في فهم المشهد. وعلى الرغم من أن كاشفات HOI ذات المرحلتين تتمتع بميزة الكفاءة العالية في التدريب والاستنتاج، إلا أنها تعاني من أداء أقل مقارنةً بالطرق ذات المرحلة الواحدة، وذلك بسبب استخدامها لشبكات أساسية قديمة، وافتقارها إلى مراعاة عملية إدراك تفاعل الإنسان في تصنيفات التفاعل. في هذه الورقة، نقترح نموذجًا يُسمى ViPLO (Vision Transformer بناءً على رسم بياني ذات حلقة ذاتية مشروطة بالوضعية)، والذي يعالج هذه المشكلات. أولاً، نُقدّم طريقة جديدة لاستخراج الميزات تناسب الشبكة الأساسية من نوع Vision Transformer، تُعرف بـ "وحدة التغطية بالمنطقة المتداخلة" (MOA). تعتمد وحدة MOA على المنطقة المتداخلة بين كل مقطع (patch) والمنطقة المعطاة في دالة الانتباه، مما يعالج مشكلة التجزئة الناتجة عن استخدام الشبكة الأساسية من نوع Vision Transformer. بالإضافة إلى ذلك، صممنا رسمًا بيانيًا يحتوي على بنية حلقة ذاتية مشروطة بالوضعية، والتي تُحدّث ترميز عقدة الإنسان باستخدام الميزات المحلية لمرفق الإنسان. هذا يسمح لل classify لتركيزه على مرافق الإنسان المحددة، مما يُمكّنه من تحديد نوع التفاعل بشكل فعّال، وهو ما يُلهمه بعملية إدراك الإنسان في تفاعل HOI. ونتيجة لذلك، حقق ViPLO أفضل النتائج المُحققة حتى الآن على معيارين علنيين، وخاصةً تحقيق زيادة قدرها +2.07 في مقياس mAP على مجموعة بيانات HICO-DET. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/Jeeseung-Park/ViPLO.

ViPLO: رسم بياني ذاتي-حلقي مُشَرَّطٌ بالوضعية بناءً على محول الرؤية للكشف عن التفاعل بين الإنسان والجسم | الأوراق البحثية | HyperAI