HyperAIHyperAI
منذ 11 أيام

AggPose: نموذج رؤية ترانسفورمر التجميع العميق لتقدير وضعية الرضيع

Xu Cao, Xiaoye Li, Liya Ma, Yi Huang, Xuan Feng, Zening Chen, Hongwu Zeng, Jianguo Cao
AggPose: نموذج رؤية ترانسفورمر التجميع العميق لتقدير وضعية الرضيع
الملخص

يُمكّن تقييم الحركة والوضعية لدى المواليد الجدد الأطباء المختصين في طب الأطفال من التنبؤ باضطرابات النمو العصبي، مما يتيح التدخل المبكر للأمراض المرتبطة بها. ومع ذلك، تتركز معظم أحدث المناهج الذكية الاصطناعية لتقدير وضعية الإنسان على البالغين، وتفتقر إلى معايير عامة مفتوحة للتنبؤ بوضعية الرضع. في هذا البحث، نُغطي هذه الفجوة من خلال اقتراح مجموعة بيانات لوضعية الرضع، ونموذج Deep Aggregation Vision Transformer لتقدير وضعية الإنسان، الذي يُقدّم إطارًا سريع التدريب يعتمد بالكامل على التحويلات (Transformers) دون استخدام عمليات التصفية (convolution) في المراحل المبكرة لاستخراج الميزات. كما يعمّم هذا النموذج مفهوم التحويل + MLP إلى تجميع عميق عالي الدقة داخل الخرائط المرئية، مما يمكّن من دمج المعلومات بين مستويات مرئية مختلفة. قمنا بتدريب AggPose مسبقًا على مجموعة بيانات COCO الخاصة بوضعية الإنسان، ثم طبّقناه على مجموعة بيانات جديدة واسعة النطاق لتقدير وضعية الرضع. أظهرت النتائج أن AggPose يمكنه تعلّم الميزات متعددة المقاييس بين مختلف الدقائق بشكل فعّال، وتحسين الأداء بشكل ملحوظ في تقدير وضعية الرضع. كما أظهرنا أن AggPose يتفوّق على النموذجين الهجينين HRFormer وTokenPose في مجموعة بيانات تقدير وضعية الرضع. علاوةً على ذلك، تفوق AggPose على HRFormer بمتوسط 0.8 نقطة AP في اختبار COCO validation الخاص بتحديد وضعية الإنسان. يُتاح الكود الخاص بنا على GitHub عبر الرابط: github.com/SZAR-LAB/AggPose.

AggPose: نموذج رؤية ترانسفورمر التجميع العميق لتقدير وضعية الرضيع | أحدث الأوراق البحثية | HyperAI