AiOS: تقدير الوضع والشكل البشري الشامل في مرحلة واحدة

تقدير الوضع والشكل التعبيري للإنسان (المعروف أيضًا باستعادة الشبكة ثلاثية الأبعاد لجسم الإنسان بأكمله) يشمل تقدير جسم الإنسان، اليدين، والتعبير. لقد تعاملت معظم الأساليب الموجودة حتى الآن مع هذه المهمة بطريقة من مرحلتين، حيث يتم أولاً اكتشاف جزء الجسم البشري باستخدام نموذج كشف جاهز وثم استنتاج الأجزاء المختلفة من جسم الإنسان بشكل منفصل. على الرغم من النتائج المثيرة للإعجاب التي تحققت، فإن هذه الأساليب تعاني من 1) فقدان المعلومات السياقية القيمة نتيجة القص، 2) إدخال تشتيتات، و3) عدم وجود روابط بينية بين الأشخاص والأجزاء المختلفة من الجسم، مما يؤدي حتماً إلى تدهور الأداء، خاصة في المشاهد المزدحمة. لمعالجة هذه المشكلات، نقدم إطار عمل جديد يجمع كل شيء في مرحلة واحدة، AiOS (All-in-One-Stage)، لاستعادة وضع وشكل الإنسان التعبيري المتعدد بدون خطوة اكتشاف إضافية للإنسان.وبشكل خاص، يتم بناء طريقة عملنا على أساس DETR (Detection Transformer)، والتي تعالج مهمة استعادة الشبكة ثلاثية الأبعاد لجسم الإنسان بأكمله كمشكلة تنبؤ متتابعة للمجموعات مع عمليات الكشف المتسلسلة المختلفة. لقد صممنا رموز فك التشفير وأوسعنا نطاقها لتناسب مهمتنا. وبشكل محدد، نستخدم أولاً رمزًا بشريًا لاكتشاف موقع الإنسان في الصورة وترميز الخصائص العالمية لكل حالة، مما يوفر موقعًا عامًا خشنًا للمربعات التحويلية اللاحقة. ثم نقدم رمزًا مرتبطًا بالمعصم لاكتشاف مفصل الإنسان في الصورة وترميز خصائص محلية دقيقة تتعاون مع الخصائص العالمية لإرجاع الشبكة الكاملة للجسم.هذا النموذج البسيط ولكنه فعال يتفوق على الأساليب السابقة الرائدة بانخفاض بنسبة 9% في NMVE (Normalized Mean Vertex Error) على AGORA (A Graphics Oriented Realistic Avatar)، بانخفاض بنسبة 30% في PVE (Position Vertex Error) على EHF (Ego Human Forms)، بانخفاض بنسبة 10% في PVE على ARCTIC (A Realistic Capture of The In-Crowd)، وبانخفاض بنسبة 3% في PVE على EgoBody.