بوسيدون: هندسة قائمة على ViT لتقدير الوضعية متعددة الإطارات مع ترجيح الإطارات التكيفي ودمج الخصائص متعدد المقياس

التقدير المكاني للإنسان هو مهمة حيوية في رؤية الحاسوب، وتتضمن الكشف عن توطين مفاصل الإنسان في الصور والفيديوهات. رغم التقدم الكبير الذي أحرزته تقدير الوضعيات في الإطارات الفردية، إلا أنها غالباً ما تفشل في التقاط الديناميكيات الزمنية اللازمة لفهم الحركات المعقدة والمستمرة. نقترح نظام Poseidon، وهو هندسة متعددة الإطارات جديدة لتقدير الوضعيات يوسع نموذج ViTPose من خلال دمج المعلومات الزمنية لتحقيق دقة ومتانة أعلى للتغلب على هذه القيود. يقدم Poseidon ابتكارات رئيسية:1. آلية توزيع الأوزان التكيفي (Adaptive Frame Weighting - AFW) التي تعطي الأولوية للأطر بشكل ديناميكي بناءً على أهميتها، مما يضمن أن النموذج يركز على البيانات الأكثر إفادة.2. وحدة الاندماج المتعدد للميزات (Multi-Scale Feature Fusion - MSFF) التي تتجمع الميزات من طبقات مختلفة للهيكل الأساسي لالتقاط التفاصيل الدقيقة والمعاني العليا.3. وحدة الانتباه المتبادل (Cross-Attention) لتبادل المعلومات بكفاءة بين الإطارات المركزية والسياقية، مما يعزز تماسك النموذج الزمني.الهندسة المقترحة تحسن الأداء في سيناريوهات الفيديو المعقدة وتقدم قابلية للتوسع وكفاءة حسابية مناسبة للتطبيقات العملية. حققت طريقتنا أداءً عالميًا رائدًا على مجموعتي بيانات PoseTrack21 وPoseTrack18، حيث حققت درجات mAP 88.3 و87.8 على التوالي، مما يجعلها أفضل من الأساليب الموجودة حالياً.