HyperAIHyperAI

Command Palette

Search for a command to run...

ViTPose: قواعد بسيطة قائمة على Vision Transformer لتقدير وضعية الإنسان

Yufei Xu Jing Zhang Qiming Zhang Dacheng Tao

الملخص

على الرغم من عدم أخذ معرفة مجال محددة بعين الاعتبار أثناء التصميم، أظهرت نماذج المحولات البصرية البسيطة أداءً ممتازًا في مهام التعرف البصري. ومع ذلك، لم تُبذل جهود كبيرة لاستكشاف الإمكانات الكامنة في هذه الهياكل البسيطة لمهام تقدير الوضعية (pose estimation). في هذه الورقة، نُظهر القدرات المدهشة للنماذج البسيطة من المحولات البصرية في تقدير الوضعية من جوانب متعددة، ألا وهي البساطة في بنية النموذج، والقابلية للتوسع في حجم النموذج، والمرونة في نموذج التدريب، وقابلية نقل المعرفة بين النماذج، وذلك من خلال نموذج أساسي بسيط يُسمى ViTPose. وبشكل محدد، يستخدم ViTPose محولات بصرية بسيطة وغير هرمية كأجسام رئيسية لاستخراج الميزات من مثيل شخص معين، ومشفر خفيف الوزن لتقدير الوضعية. ويمكن توسيعه من 100 مليون إلى 1 مليار معلمة بفضل قدرته القابلة للتوسع ودرجة التوازي العالية التي تتميز بها المحولات، مما يُحدث حدًا جديدًا في مبدأ بارتو (Pareto front) بين الأداء والسرعة (throughput). علاوة على ذلك، يتميز ViTPose بمرونة عالية فيما يتعلق بنوع الانتباه، ودقة الإدخال، واستراتيجيات التدريب المسبق والتحسين الدقيق، فضلًا عن التعامل مع مهام متعددة لتقدير الوضعية. كما نُظهر تجريبيًا أن المعرفة المكتسبة من نماذج ViTPose الكبيرة يمكن نقلها بسهولة إلى النماذج الصغيرة من خلال عنصر معرفة بسيط (knowledge token). وأظهرت النتائج التجريبية أن النموذج الأساسي ViTPose يتفوق على الطرق الممثلة في معيار MS COCO للكشف عن النقاط الأساسية، في حين أن النموذج الأكبر يحقق حالة جديدة من الأداء (state-of-the-art). يمكن الوصول إلى الكود والنموذج عبر الرابط: https://github.com/ViTAE-Transformer/ViTPose.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ViTPose: قواعد بسيطة قائمة على Vision Transformer لتقدير وضعية الإنسان | مستندات | HyperAI