HyperAIHyperAI

Command Palette

Search for a command to run...

بوسيدون: هندسة قائمة على ViT لتقدير الوضعية متعددة الإطارات مع ترجيح الإطارات التكيفي ودمج الخصائص متعدد المقياس

Cesare Davide Pace* Alessandro Marco De Nunzio Claudio De Stefano Francesco Fontanella Mario Molinara

الملخص

التقدير المكاني للإنسان هو مهمة حيوية في رؤية الحاسوب، وتتضمن الكشف عن توطين مفاصل الإنسان في الصور والفيديوهات. رغم التقدم الكبير الذي أحرزته تقدير الوضعيات في الإطارات الفردية، إلا أنها غالباً ما تفشل في التقاط الديناميكيات الزمنية اللازمة لفهم الحركات المعقدة والمستمرة. نقترح نظام Poseidon، وهو هندسة متعددة الإطارات جديدة لتقدير الوضعيات يوسع نموذج ViTPose من خلال دمج المعلومات الزمنية لتحقيق دقة ومتانة أعلى للتغلب على هذه القيود. يقدم Poseidon ابتكارات رئيسية:1. آلية توزيع الأوزان التكيفي (Adaptive Frame Weighting - AFW) التي تعطي الأولوية للأطر بشكل ديناميكي بناءً على أهميتها، مما يضمن أن النموذج يركز على البيانات الأكثر إفادة.2. وحدة الاندماج المتعدد للميزات (Multi-Scale Feature Fusion - MSFF) التي تتجمع الميزات من طبقات مختلفة للهيكل الأساسي لالتقاط التفاصيل الدقيقة والمعاني العليا.3. وحدة الانتباه المتبادل (Cross-Attention) لتبادل المعلومات بكفاءة بين الإطارات المركزية والسياقية، مما يعزز تماسك النموذج الزمني.الهندسة المقترحة تحسن الأداء في سيناريوهات الفيديو المعقدة وتقدم قابلية للتوسع وكفاءة حسابية مناسبة للتطبيقات العملية. حققت طريقتنا أداءً عالميًا رائدًا على مجموعتي بيانات PoseTrack21 وPoseTrack18، حيث حققت درجات mAP 88.3 و87.8 على التوالي، مما يجعلها أفضل من الأساليب الموجودة حالياً.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp