HyperAIHyperAI
منذ 11 أيام

TransFusion: نموذج توزيع مبني على المحولات وواقعي وفعال للتنبؤ بحركة الإنسان ثلاثية الأبعاد

Sibo Tian, Minghui Zheng, Xiao Liang
TransFusion: نموذج توزيع مبني على المحولات وواقعي وفعال للتنبؤ بحركة الإنسان ثلاثية الأبعاد
الملخص

تلعب التنبؤات بحركة الإنسان دورًا محوريًا في ضمان تعاون آمن وفعال بين الإنسان والروبوت في الأنظمة الذكية لإعادة التصنيع في المستقبل. يمكن تصنيف الدراسات الحالية إلى مجموعتين: الأولى تركز على الدقة، وتتنبأ بحركة مستقبلية واحدة، بينما الثانية تُنتج تنبؤات متنوعة استنادًا إلى الملاحظات. تفشل المجموعة الأولى في معالجة عدم اليقين والطبيعة متعددة النماذج لحركة الإنسان، في حين أن المجموعة الثانية غالبًا ما تُنتج تسلسلات حركة تبتعد كثيرًا عن الواقع الحقيقي أو تصبح غير واقعية في السياق التاريخي. لمعالجة هذه المشكلات، نقترح نموذجًا مبتكرًا وواقعيًا يُسمى TransFusion، وهو نموذج مبني على التشتت (diffusion) للتنبؤ بحركة الإنسان ثلاثية الأبعاد، والذي يمكنه إنتاج عينات من المحتمل أن تحدث، مع الحفاظ على مستوى معين من التنوّع. يستخدم نموذجنا معمارية Transformer مع اتصالات طويلة (long skip connections) بين الطبقات السطحية والعميقة. علاوةً على ذلك، نستخدم تحويل جيب التمام المتقطع (Discrete Cosine Transform) لتمثيل تسلسلات الحركة في الفضاء الترددي، مما يعزز الأداء. على عكس النماذج السابقة القائمة على التشتت التي تعتمد على وحدات إضافية مثل الانتباه المتقاطع (cross-attention) وتصحيح الطبقات التكيفي (adaptive layer normalization) لربط التنبؤ بالحركة السابقة الملاحظة، نعامل جميع المدخلات، بما في ذلك الشروط، كـ "رموز" (tokens)، مما يُنتج نموذجًا خفيفًا أكثر من الطرق الحالية. أجرينا دراسات تجريبية واسعة على مجموعات بيانات معيارية لتأكيد فعالية نموذجنا للتنبؤ بحركة الإنسان.