HyperAIHyperAI
منذ 7 أيام

ViTPose: قواعد بسيطة قائمة على Vision Transformer لتقدير وضعية الإنسان

Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao
ViTPose: قواعد بسيطة قائمة على Vision Transformer لتقدير وضعية الإنسان
الملخص

على الرغم من عدم أخذ معرفة مجال محددة بعين الاعتبار أثناء التصميم، أظهرت نماذج المحولات البصرية البسيطة أداءً ممتازًا في مهام التعرف البصري. ومع ذلك، لم تُبذل جهود كبيرة لاستكشاف الإمكانات الكامنة في هذه الهياكل البسيطة لمهام تقدير الوضعية (pose estimation). في هذه الورقة، نُظهر القدرات المدهشة للنماذج البسيطة من المحولات البصرية في تقدير الوضعية من جوانب متعددة، ألا وهي البساطة في بنية النموذج، والقابلية للتوسع في حجم النموذج، والمرونة في نموذج التدريب، وقابلية نقل المعرفة بين النماذج، وذلك من خلال نموذج أساسي بسيط يُسمى ViTPose. وبشكل محدد، يستخدم ViTPose محولات بصرية بسيطة وغير هرمية كأجسام رئيسية لاستخراج الميزات من مثيل شخص معين، ومشفر خفيف الوزن لتقدير الوضعية. ويمكن توسيعه من 100 مليون إلى 1 مليار معلمة بفضل قدرته القابلة للتوسع ودرجة التوازي العالية التي تتميز بها المحولات، مما يُحدث حدًا جديدًا في مبدأ بارتو (Pareto front) بين الأداء والسرعة (throughput). علاوة على ذلك، يتميز ViTPose بمرونة عالية فيما يتعلق بنوع الانتباه، ودقة الإدخال، واستراتيجيات التدريب المسبق والتحسين الدقيق، فضلًا عن التعامل مع مهام متعددة لتقدير الوضعية. كما نُظهر تجريبيًا أن المعرفة المكتسبة من نماذج ViTPose الكبيرة يمكن نقلها بسهولة إلى النماذج الصغيرة من خلال عنصر معرفة بسيط (knowledge token). وأظهرت النتائج التجريبية أن النموذج الأساسي ViTPose يتفوق على الطرق الممثلة في معيار MS COCO للكشف عن النقاط الأساسية، في حين أن النموذج الأكبر يحقق حالة جديدة من الأداء (state-of-the-art). يمكن الوصول إلى الكود والنموذج عبر الرابط: https://github.com/ViTAE-Transformer/ViTPose.

ViTPose: قواعد بسيطة قائمة على Vision Transformer لتقدير وضعية الإنسان | أحدث الأوراق البحثية | HyperAI