منذ 8 أشهر

الملخص

التعرف على الأفعال التفاعلية يلعب دورًا مهمًا في التفاعل والتعاون بين الإنسان والروبوت. الطرق السابقة تستخدم تقنية الاندماج المتأخر (late fusion) وآلية الانتباه المشتركة (co-attention mechanism) لتقاطع العلاقات التفاعلية، مما يحد من قدرتها على التعلم أو كفاءتها في التكيف مع كيانات تفاعلية أكثر. بالإضافة إلى ذلك، تحتفظ هذه الطرق بفرضية أن الأولويات لكل كيان معروفة مسبقًا، كما أنها تعاني من نقص في تقييم السياقات الأكثر عمومية التي تعالج تنوع الموضوعات. لحل هذه المشكلات، نقترح شبكة انتباه الزمان والمكان التفاعلية (Interactive Spatiotemporal Token Attention Network - ISTA-Net)، والتي تقوم بنمذجة العلاقات المكانية والزمانية والتفاعلية بشكل متزامن. بشكل خاص، تحتوي شبكتنا على محول رمزي (tokenizer) يقوم بتقسيم الرموز الزمانية والمكانية التفاعلية (Interactive Spatiotemporal Tokens - ISTs)، وهي طريقة موحدة لتمثيل حركات كيانات متعددة ومتنوعة. من خلال توسيع البُعد الكياني، توفر الرموز الزمانية والمكانية التفاعلية تمثيلات تفاعلية أفضل. لتعلم مشترك في ثلاثة أبعاد داخل الرموز الزمانية والمكانية التفاعلية، تم تصميم كتل انتباه ذاتي متعددة الرؤوس (multi-head self-attention blocks) مدمجة مع convoالوشنات ثلاثية الأبعاد (3D convolutions) لتقاطع الارتباطات بين الرموز. عند نمذجة هذه الارتباطات، يكون الترتيب الصارم للكيانات غالبًا غير ذي صلة للتعرف على الأفعال التفاعلية. لذلك، تم اقتراح إعادة ترتيب الكيانات (Entity Rearrangement) لإزالة النظام في الرموز الزamanية والمكانية التفاعلية للكيانات القابلة للتبادل. أثبتت التجارب الواسعة على أربعة مجموعات بيانات فعالية شبكة ISTA-Net من خلال تفوقها على الأساليب الأكثر حداثة. شفرتنا المصدر متاحة بشكل عام على الرابط https://github.com/Necolizer/ISTA-Net

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yuhang Wen Zixuan Tang Yunsheng Pang Beichen Ding Mengyuan Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yuhang Wen Zixuan Tang Yunsheng Pang Beichen Ding Mengyuan Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yuhang Wen Zixuan Tang Yunsheng Pang Beichen Ding Mengyuan Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكة الانتباه المكانية-الزمانية التفاعلية لمعرفة الأفعال التفاعلية العامة المستندة إلى الهيكل العظمي

Yuhang Wen Zixuan Tang Yunsheng Pang Beichen Ding Mengyuan Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكة الانتباه المكانية-الزمانية التفاعلية لمعرفة الأفعال التفاعلية العامة المستندة إلى الهيكل العظمي

Yuhang Wen Zixuan Tang Yunsheng Pang Beichen Ding Mengyuan Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكة الانتباه المكانية-الزمانية التفاعلية لمعرفة الأفعال التفاعلية العامة المستندة إلى الهيكل العظمي

Yuhang Wen Zixuan Tang Yunsheng Pang Beichen Ding Mengyuan Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters