HyperAIHyperAI
منذ 2 أشهر

شبكة الانتباه المكانية-الزمانية التفاعلية لمعرفة الأفعال التفاعلية العامة المستندة إلى الهيكل العظمي

Wen, Yuhang ; Tang, Zixuan ; Pang, Yunsheng ; Ding, Beichen ; Liu, Mengyuan
شبكة الانتباه المكانية-الزمانية التفاعلية لمعرفة الأفعال التفاعلية العامة المستندة إلى الهيكل العظمي
الملخص

التعرف على الأفعال التفاعلية يلعب دورًا مهمًا في التفاعل والتعاون بين الإنسان والروبوت. الطرق السابقة تستخدم تقنية الاندماج المتأخر (late fusion) وآلية الانتباه المشتركة (co-attention mechanism) لتقاطع العلاقات التفاعلية، مما يحد من قدرتها على التعلم أو كفاءتها في التكيف مع كيانات تفاعلية أكثر. بالإضافة إلى ذلك، تحتفظ هذه الطرق بفرضية أن الأولويات لكل كيان معروفة مسبقًا، كما أنها تعاني من نقص في تقييم السياقات الأكثر عمومية التي تعالج تنوع الموضوعات. لحل هذه المشكلات، نقترح شبكة انتباه الزمان والمكان التفاعلية (Interactive Spatiotemporal Token Attention Network - ISTA-Net)، والتي تقوم بنمذجة العلاقات المكانية والزمانية والتفاعلية بشكل متزامن. بشكل خاص، تحتوي شبكتنا على محول رمزي (tokenizer) يقوم بتقسيم الرموز الزمانية والمكانية التفاعلية (Interactive Spatiotemporal Tokens - ISTs)، وهي طريقة موحدة لتمثيل حركات كيانات متعددة ومتنوعة. من خلال توسيع البُعد الكياني، توفر الرموز الزمانية والمكانية التفاعلية تمثيلات تفاعلية أفضل. لتعلم مشترك في ثلاثة أبعاد داخل الرموز الزمانية والمكانية التفاعلية، تم تصميم كتل انتباه ذاتي متعددة الرؤوس (multi-head self-attention blocks) مدمجة مع convoالوشنات ثلاثية الأبعاد (3D convolutions) لتقاطع الارتباطات بين الرموز. عند نمذجة هذه الارتباطات، يكون الترتيب الصارم للكيانات غالبًا غير ذي صلة للتعرف على الأفعال التفاعلية. لذلك، تم اقتراح إعادة ترتيب الكيانات (Entity Rearrangement) لإزالة النظام في الرموز الزamanية والمكانية التفاعلية للكيانات القابلة للتبادل. أثبتت التجارب الواسعة على أربعة مجموعات بيانات فعالية شبكة ISTA-Net من خلال تفوقها على الأساليب الأكثر حداثة. شفرتنا المصدر متاحة بشكل عام على الرابط https://github.com/Necolizer/ISTA-Net