HyperAIHyperAI
منذ 2 أشهر

X-Pose: كشف أي نقاط مفتاحية

Yang, Jie ; Zeng, Ailing ; Zhang, Ruimao ; Zhang, Lei
X-Pose: كشف أي نقاط مفتاحية
الملخص

يهدف هذا العمل إلى معالجة مشكلة متقدمة في اكتشاف النقاط الرئيسية: كيفية اكتشاف أي نقاط رئيسية بدقة في سيناريوهات حقيقية معقدة، والتي تتضمن أشياء ضخمة ومتداخلة ومفتوحة النهايات بالإضافة إلى تعريفات النقاط الرئيسية المرتبطة بها. غالباً ما تفشل الكاشفات الحالية ذات الأداء العالي في التعامل مع هذه المشكلة بسبب مخططاتها ثنائية المرحلة، تصميمات الدوافع غير المستغلة بشكل كافٍ، والبيانات التدريبية المحدودة. لسد هذه الفجوة، نقترح X-Pose، إطار عمل جديد من النهاية إلى النهاية مع دوافع متعددة الأوضاع (أي بصرية، نصية، أو مزيج منها) لاكتشاف نقاط رئيسية متعددة للأجسام المتحركة (مثل البشر والحيوانات)، والأجسام الصلبة والمطاطية داخل صورة معينة. علاوة على ذلك، نقدم مجموعة بيانات كبيرة الحجم تُسمى UniKPT، والتي توحّد 13 مجموعة بيانات لاكتشاف النقاط الرئيسية تحتوي على 338 نقطة رئيسية عبر 1,237 فئة و400 ألف حالة. عند التدريب باستخدام UniKPT، يحقق X-Pose تناسقاً فعالاً بين النص والنقاط الرئيسية والصورة والنقاط الرئيسية بفضل تعزيز متبادل للدوافع المتعددة الأوضاع بناءً على التعلم التبادلي بين الأوضاع. تظهر نتائج التجارب أن X-Pose حقق تحسينات ملحوظة بمقدار 27.7 AP و6.44 PCK و7.0 AP مقارنة بالطرق الأكثر تقدماً غير القابلة للتحفيز، والمستندة إلى الدوافع البصرية، والمستندة إلى الدوافع النصية في كل إعداد عادل على حدة. وأكثر أهمية من ذلك، يوضح الاختبار العملي قدرة X-Pose القوية على تحديد النقاط الرئيسية بدقة عالية وتعميمها عبر أساليب الصور والفئات والأوضاع المختلفة، مما يفتح طريقاً جديداً لاكتشاف نقاط رئيسية متعددة في التطبيقات الحقيقية. يمكن الوصول إلى شفرتنا ومجموعتنا من البيانات عبر الرابط https://github.com/IDEA-Research/X-Pose.

X-Pose: كشف أي نقاط مفتاحية | أحدث الأوراق البحثية | HyperAI