HyperAIHyperAI
منذ 2 أشهر

InterMask: إنشاء التفاعل البشري ثلاثي الأبعاد عبر النمذجة المقنعة التشاركية

Javed, Muhammad Gohar ; Guo, Chuan ; Cheng, Li ; Li, Xingyu
InterMask: إنشاء التفاعل البشري ثلاثي الأبعاد عبر النمذجة المقنعة التشاركية
الملخص

توليد التفاعلات البشرية الواقعية ثلاثية الأبعاد من الوصف النصي لا يزال مهمة صعبة. تنتج الأساليب الحالية، التي تعتمد عادةً على نماذج الانتشار، نتائج غالباً ما تفتقر إلى الواقعية والدقة. في هذا العمل، نقدم InterMask، وهو إطار جديد لتوليد التفاعلات البشرية باستخدام النمذجة المقنّعة التعاونية في الفضاء المنفصل. يقوم InterMask أولاً بتوظيف VQ-VAE لتحويل كل سلسلة حركية إلى خريطة رموز حركية ثنائية الأبعاد. على عكس الخرائط التقليدية للرموز VQ ذات البعد الواحد، فإنها تحتفظ بشكل أفضل بالتفاصيل الزمانية-المكانية الدقيقة وتعزز الوعي المكاني داخل كل رمز.بناءً على هذه التمثيلات، يستخدم InterMask إطارًا للنمذجة المقنّعة التوليدية لنمذجة الرموز الخاصة بفردين متفاعلين بشكل تعاوني. يتم تحقيق ذلك من خلال استخدام بنية transformer مصممة خصيصاً لالتقاط الارتباطات الزمانية-المكانية المعقدة. أثناء التدريب، يتم قناع الرموز الحركية لكل من الفردين بشكل عشوائي ويتعلم الإطار كيفية التنبؤ بها. بالنسبة للاستدلال، بدءًا من السلاسل المحجوبة بالكامل، يقوم بإكمال الرموز تدريجيًا لكلا الفردين.بفضل تمثيل الحركة المحسن والبنية المخصصة واستراتيجية التعلم الفعالة، يحقق InterMask نتائج متقدمة على مستوى العالم، حيث ينتج تفاعلات بشرية عالية الدقة ومتنوعة. فهو يتفوق على الأساليب السابقة، حيث حقق درجة FID قدرها $5.154$ (مقابل $5.535$ لـ in2IN) في مجموعة بيانات InterHuman ودرجة FID قدرها $0.399$ (مقابل $5.207$ لـ InterGen) في مجموعة بيانات InterX. بالإضافة إلى ذلك، يدعم InterMask توليد ردود الفعل بطريقة سلسة دون الحاجة إلى إعادة تصميم الإطار أو ضبطه دقيقاً (fine-tuning).

InterMask: إنشاء التفاعل البشري ثلاثي الأبعاد عبر النمذجة المقنعة التشاركية | أحدث الأوراق البحثية | HyperAI