HyperAIHyperAI
منذ 17 أيام

الانتباه المتقاطع للوحدات المُنفصلة في استعادة شبكة الإنسان ثلاثية الأبعاد باستخدام المحولات

Junhyeong Cho, Kim Youwang, Tae-Hyun Oh
الانتباه المتقاطع للوحدات المُنفصلة في استعادة شبكة الإنسان ثلاثية الأبعاد باستخدام المحولات
الملخص

لقد حققت هياكل الترميفورمر المُشفّرة حديثًا نتائج رائدة في مجال إعادة بناء شبكة الإنسان ثلاثية الأبعاد من صورة واحدة، لكنها تتطلب عددًا كبيرًا من المعاملات وحسابات مكلفة. وبسبب الارتفاع الكبير في استهلاك الذاكرة وسرعة الاستنتاج البطيئة، يصعب تطبيق هذه النماذج في الاستخدام العملي. في هذا البحث، نقترح معمارية جديدة لترميفورمر مُشفّر-مُفكّك لإعادة بناء الشبكة ثلاثية الأبعاد للإنسان من صورة واحدة، تُسمى FastMETRO. نحدد أن العائق الرئيسي في الأداء بالنسبة للنماذج القائمة على المُشفّر ناتج عن تصميم الرموز (tokens) الذي يؤدي إلى تفاعلات معقدة للغاية بين الرموز المدخلة. ونفصل هذه التفاعلات من خلال معمارية المُشفّر-المُفكّك، مما يسمح لنماذجنا باستخدام عدد أقل بكثير من المعاملات ووقت استنتاج أقصر. بالإضافة إلى ذلك، نُطبّق معرفة مسبقة حول العلاقات الشكلية للجسم البشري من خلال تقنيات قناع الانتباه (attention masking) وعمليات رفع دقة الشبكة (mesh upsampling)، مما يؤدي إلى تقارب أسرع ودقة أعلى. تُحسّن FastMETRO حدود بايرتو (Pareto-front) بين الدقة والكفاءة، وتفوق بوضوح الطرق القائمة على الصور في مجموعتي البيانات Human3.6M و3DPW. علاوة على ذلك، نُثبت قدرتها على التعميم على مجموعة بيانات FreiHAND.

الانتباه المتقاطع للوحدات المُنفصلة في استعادة شبكة الإنسان ثلاثية الأبعاد باستخدام المحولات | أحدث الأوراق البحثية | HyperAI