HyperAIHyperAI
منذ 2 أشهر

GenHMR: استعادة الشبكة البشرية التوليدية

Saleem, Muhammad Usama ; Pinyoanuntapong, Ekkasit ; Wang, Pu ; Xue, Hongfei ; Das, Srijan ; Chen, Chen
GenHMR: استعادة الشبكة البشرية التوليدية
الملخص

استعادة الشبكة البشرية (HMR) تعد مهمة حاسمة في العديد من تطبيقات رؤية الحاسوب، بدءًا من الصحة وصولاً إلى الفنون والترفيه. وقد تم التعامل مع استعادة الشبكة البشرية من الصور الأحادية الرؤية بشكل أساسي من خلال الطرق الحتمية التي تنتج تنبؤًا واحدًا لصورة ثنائية الأبعاد معينة. ومع ذلك، فإن استعادة الشبكة البشرية من صورة واحدة هي مشكلة غير محددة جيدًا بسبب الغموض في العمق والتشتتات. حاولت الطرق الاحتمالية معالجة هذا الأمر بإنشاء ودمج العديد من إعادة الإنشاء ثلاثية الأبعاد المحتملة، ولكن أدائها غالبًا ما كان أقل فعالية مقارنة بالطرق الحتمية.في هذه الورقة البحثية، نقدم GenHMR، إطار جديد لإعادة التوليد يعيد صياغة استعادة الشبكة البشرية الأحادية الرؤية كمهمة إنشائية مشروطة بالصورة، مما يتيح نموذجة وإزالة الغموض في عملية الخريطة ثنائية الأبعاد إلى ثلاثية الأبعاد بشكل صريح. يتكون GenHMR من مكونين رئيسيين: (1) محول وضعيات (Pose Tokenizer) لتحويل وضعيات الإنسان ثلاثية الأبعاد إلى سلسلة من الرموز المتقطعة في الفضاء الكامن (Latent Space)، و(2) محول مasked مشروط بالصورة (Image-Conditional Masked Transformer) لتعلم التوزيعات الاحتمالية للرموز الوضعيات، مشروطة بدعامة الصورة الإدخال بالإضافة إلى سلسلة الرموز المقنعة عشوائيًا.خلال الاستدلال، يقوم النموذج بتقديم عينات من التوزيع المشروط المتعلم لفك شفرة الرموز الوضعيات ذات الثقة العالية تدريجيًا، مما يقلل من غموض إعادة الإنشاء ثلاثية الأبعاد. ولتحسين إعادة الإنشاء بشكل أكبر، تم اقتراح تقنية تحسين موجهة بالوضعيات ثنائية الأبعاد لتغليف الرموز الوضعيات المنكوشة مباشرة في الفضاء الكامن، مما يجبر الشبكة الجسمانية الثلاثية الأبعاد المعكوس عليها على التوافق مع مؤشرات الوضعيات ثنائية الأبعاد.أظهرت التجارب على مجموعات بيانات المعايير أن GenHMR يتفوق بشكل كبير على أفضل الأساليب الحالية. يمكن العثور على موقع المشروع على الرابط التالي:https://m-usamasaleem.github.io/publication/GenHMR/GenHMR.html

GenHMR: استعادة الشبكة البشرية التوليدية | أحدث الأوراق البحثية | HyperAI