HumanBench: نحو إدراك بشري شامل بمساعدة التدريب المسبق باستخدام العرض الضوئي

تشمل المفاهيم المتمحورة حول الإنسان مجموعة متنوعة من مهام الرؤية، والتي لها تطبيقات صناعية واسعة النطاق، بما في ذلك المراقبة والقيادة الذاتية وميتافيرس (الكون الافتراضي). من المرغوب فيه أن يكون هناك نموذج تدريب أولي عام يمكن استخدامه في مهام لاحقة متعددة تتمحور حول الإنسان. يمضي هذا البحث قُدُماً على هذا الطريق من خلال جوانب المقاييس والطرق التدريب الأولية. بصفة خاصة، نقترح \textbf{HumanBench} استنادًا إلى قواعد بيانات موجودة لتقييم القدرات التعميمية لطرق التدريب الأولي المختلفة على 19 قاعدة بيانات من ست مهام لاحقة متنوعة، تشمل إعادة تحديد الشخص (Person ReID)، تقدير الوضع (Pose Estimation)، فك رموز الإنسان (Human Parsing)، التعرف على خصائص المشاة (Pedestrian Attribute Recognition)، اكتشاف المشاة (Pedestrian Detection)، وعد الحشود (Crowd Counting). للتعلم من المعرفة الخشنة والدقيقة في أجسام الإنسان، نقترح أيضًا طريقة تدريب هرمية مساعدة بالمساهم (Projector Assisted Hierarchical pretraining method) (\textbf{PATH}) لتعلم المعرفة المتعددة عند مستويات مختلفة من الدقة. أظهرت التقييمات الشاملة على HumanBench أن طريقتنا PATH حققت نتائج جديدة رائدة في 17 قاعدة بيانات لاحقة وفي مستوى النتائج الحالية في القاعدتين الأخريين. سيتم توفير الكود بشكل علني على \href{https://github.com/OpenGVLab/HumanBench}{https://github.com/OpenGVLab/HumanBench}.