HyperAIHyperAI
منذ 2 أشهر

هولك: مترجم المعرفة الشامل لمهام مركز الإنسان

Wang, Yizhou ; Wu, Yixuan ; Tang, Shixiang ; He, Weizhen ; Guo, Xun ; Zhu, Feng ; Bai, Lei ; Zhao, Rui ; Wu, Jian ; He, Tong ; Ouyang, Wanli
هولك: مترجم المعرفة الشامل لمهام مركز الإنسان
الملخص

المهام المرتكزة على الإنسان، مثل اكتشاف المشاة، وتعرف الحركات بناءً على الهيكل العظمي، وتقدير الوضعية، لها تطبيقات صناعية واسعة النطاق، مثل الكون الفائق (metaverse) وتحليل الرياضة. هناك زيادة حديثة في تطوير نماذج أساسية مرتكزة على الإنسان يمكن أن تستفيد منها مجموعة متنوعة من المهام المرتكزة على الإنسان. رغم تحقيق العديد من هذه النماذج الأساسية للإنسان نجاحًا كبيرًا، إلا أنها لم تستكشف المهام ثلاثية الأبعاد والمهام البصرية-اللغوية المرتكزة على الإنسان ولم تتطلب تعديلات دقيقة محددة للمهمة. هذه القيود تحد من تطبيقها في المزيد من المهام والمواقف التالية. لحل هذه المشكلات، نقدم هولك (Hulk)، أول نموذج عام متعدد الوسائط يركز على الإنسان قادر على التعامل مع الرؤية ثنائية الأبعاد والرؤية ثلاثية الأبعاد والمهام المستندة إلى الهيكل العظمي والمهام البصرية-اللغوية دون الحاجة إلى تعديلات دقيقة محددة للمهمة. السر في تحقيق هذا هو ضغط رؤوس مختلفة محددة للمهمة في رأسين عامين، أحدهما للتمثيلات المنفصلة مثل اللغات، والآخر للتمثيلات المستمرة مثل إحداثيات الموقع. يمكن دمج مخرجات الرأسين في أربع وسائط مدخل ومخرج مميزة. هذا التمثيل الموحد يتيح لهولك معالجة مجموعة متنوعة من المهام المرتكزة على الإنسان كترجمة بين الوسائط، مما يدمج المعرفة عبر نطاق واسع من المهام. تقييم شامل لهولك على 12 مقاييس تغطي 8 مهام مرتكزة على الإنسان يظهر تفوق طريقة المقترحة لدينا، حيث حققت أداءً عالي المستوى في 11 مقاييس. الكود متاح على https://github.com/OpenGVLab/Hulk.