InteractMove: توليد التفاعل البشري-الكائن المُتحكم به نصيًا في المشاهد ثلاثية الأبعاد مع كائنات قابلة للتحريك
Xinhao Cai Minghang Zheng Xin Jin Yang Liu

الملخص
نُقدّم مهمة جديدة تتمثل في توليد تفاعل الإنسان مع الأجسام في المشاهد ثلاثية الأبعاد التي تحتوي على أجسام قابلة للحركة، مع التحكم بالتفاعل عبر النصوص. تعاني المجموعات الحالية للبيانات المتعلقة بالتفاعلات بين الإنسان والمشهد من قلة فئات التفاعل، وغالبًا ما تقتصر على التفاعلات مع أجسام ثابتة (أي لا تتغير مواقعها)، كما أن جمع بيانات من هذا النوع التي تتضمن أجسامًا قابلة للحركة يُعدّ أمرًا صعبًا ومرتفع التكلفة. ولحل هذه المشكلة، قمنا ببناء مجموعة بيانات تُسمى InteractMove، المخصصة لتفاعلات الإنسان مع الأجسام القابلة للحركة في المشاهد ثلاثية الأبعاد، وذلك من خلال محاذاة بيانات التفاعل البشري-الجسم الحالية مع سياقات المشهد، وتتميز هذه المجموعة بثلاث خصائص رئيسية:1) مشاهد تحتوي على عدة أجسام قابلة للحركة، مع مواصفات تفاعل مُحددة عبر نصوص (تشمل أجسامًا مشابهة من نفس الفئة كعوائق، مما يتطلب فهمًا مكانيًا وسياقيًا ثلاثي الأبعاد)،2) تنوع في أنواع الأشياء وأحجامها، مع أنماط تفاعل متنوعة (مثل التفاعل بيد واحدة أو بيدين)،3) مسارات لحركة الأجسام تتماشى مع القوانين الفيزيائية وتعكس تلاعبًا واقعيًا.وبإدخال أنواع متعددة من الأجسام القابلة للحركة، تصبح المهمة أكثر تعقيدًا، إذ يجب على النموذج أن يحدد بدقة الأجسام التي يجب التفاعل معها، ويتعلم التفاعل مع أجسام مختلفة الحجم والفئة، ويتجنب التصادمات بين الأجسام المتحركة والمشهد. وللتغلب على هذه التحديات، نقترح حلًا جديدًا يعتمد على نموذج سير عمل (pipeline) مبتكر. أولاً، نستخدم نماذج التعرف البصري ثلاثي الأبعاد (3D visual grounding) لتحديد الجسم المراد التفاعل معه. ثم نقترح نموذجًا جديدًا لتعلم القدرات التفاعلية المشتركة بين اليد والجسم (hand-object joint affordance learning)، والذي يُقدّر مناطق الاتصال لكل مفصل من مفاصل اليد وجزء من الجسم، ما يمكّن من إمساك وتحريك أشكال متنوعة من الأجسام بدقة. وأخيرًا، نُحسّن التفاعلات من خلال نمذجة المشهد المحلي وتطبيق قيود تجنب التصادم، مما يضمن حركات واقعية من الناحية الفيزيائية، ويمنع التصادمات بين الأجسام والمشهد. وقد أظهرت التجارب الشاملة تفوق طريقة عملنا في إنتاج تفاعلات واقعية من الناحية الفيزيائية ومتوافقة مع التعليمات النصية، مقارنة بالطرق الحالية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.