HyperAIHyperAI
منذ 2 أشهر

تثبيت القدرة من الفيديو التوضيحي إلى الصورة المستهدفة

Joya Chen; Difei Gao; Kevin Qinghong Lin; Mike Zheng Shou
تثبيت القدرة من الفيديو التوضيحي إلى الصورة المستهدفة
الملخص

يتميز البشر بقدرتهم على التعلم من عروض الخبراء وحل مشكلاتهم الخاصة. لتمكين الروبوتات والمساعدين الذكيين، مثل نظارات الواقع المعزز (AR)، من هذه القدرة، من الضروري ربط تفاعلات اليدين البشرية (أي، الإمكانات) من مقاطع الفيديو العرضية وتطبيقها على صورة هدف مثل وجهة نظر المستخدم لنظارات AR. يعتبر مهمة ربط الإمكانات من الفيديو إلى الصورة تحديًا بسبب: (1) الحاجة إلى التنبؤ بالإمكانات الدقيقة، و(2) قلة البيانات التدريبية التي لا تغطي بشكل كافٍ الاختلافات بين الفيديو والصورة وتؤثر سلبًا على عملية الربط. لمعالجة هذه التحديات، نقترح استخدام "متغير الإمكانات" (Afformer)، وهو يحتوي على مفكك قائم على المتغيرات الدقيقة الذي يحسن تدريجيًا ربط الإمكانات. بالإضافة إلى ذلك، نقدم تقنية التدريب المسبق ذاتيًا "قناع الإمكانات اليدوية" (MaskAHand)، وهي تقنية لدمج بيانات الفيديو والصورة ومحاكاة تغيير السياق، مما يعزز ربط الإمكانات عبر الاختلافات بين الفيديو والصورة. حقق Afformer مع تدريب MaskAHand أداءً متفوقًا في عدة مقاييس، بما في ذلك تحسين بنسبة كبيرة تبلغ 37% في مجموعة بيانات OPRA. يمكن الوصول إلى الكود في https://github.com/showlab/afformer.

تثبيت القدرة من الفيديو التوضيحي إلى الصورة المستهدفة | أحدث الأوراق البحثية | HyperAI