ReMoDiffuse: نموذج تمايز الحركة المعزز بالاسترجاع

إن توليد الحركة البشرية ثلاثية الأبعاد يُعد أمرًا بالغ الأهمية في الصناعة الإبداعية. تعتمد التطورات الحديثة على نماذج توليدية تُدمج معرفة مجالية لتحسين توليد الحركات بناءً على النصوص، مما أدى إلى تقدم كبير في التقاط الحركات الشائعة. ومع ذلك، لا تزال الأداء في توليد الحركات الأكثر تنوعًا غير راضٍ. في هذا العمل، نقترح ReMoDiffuse، وهي إطار عمل لتوليد الحركة يعتمد على نموذج التشتت (diffusion model)، والذي يدمج آلية استرجاع لتحسين عملية إزالة الضوضاء. يعزز ReMoDiffuse القدرة على التعميم والتنوع في توليد الحركات بناءً على النصوص من خلال ثلاثة تصميمات رئيسية: 1) الاسترجاع الهجين (Hybrid Retrieval)، الذي يبحث عن أمثلة مناسبة من قاعدة البيانات بناءً على التشابهات الدلالية والحركية معًا. 2) المحول المُنظَّم دلاليًا (Semantic-Modulated Transformer)، الذي يُمكّن من امتصاص المعرفة المسترجعة بشكل انتقائي، ويتكيف مع الفروق بين العينات المسترجعة والتسلسل الحركي المستهدف. 3) مزيج الشروط (Condition Mixture)، الذي يُحسّن استخدام قاعدة البيانات المسترجعة أثناء التوليد، ويتجاوز مشكلة الحساسية للحجم في التوجيه الخالي من الفئة (classifier-free guidance). تُظهر التجارب الواسعة أن ReMoDiffuse يتفوق على أحدث الأساليب من حيث التوازن بين اتساق النص والحركة وجودة الحركة، خاصة في توليد الحركات الأكثر تنوعًا.