HyperAIHyperAI

Command Palette

Search for a command to run...

CAST: الانتباه المتقاطع في الفضاء والزمان لتمييز الأفعال في الفيديو

Dongho Lee Jongseo Lee Jinwoo Choi

الملخص

التعرف على أفعال البشر في مقاطع الفيديو يتطلب فهمًا مكانيًا وزمانيًا. ومع ذلك، فإن معظم النماذج الحالية للتعرف على الأفعال تفتقر إلى فهم متوازن بين البعد المكاني والزماني لمقاطع الفيديو. في هذا البحث، نقترح هندسة جديدة ذات تيارين تسمى "الانتباه المتقاطع في الفضاء والزمان" (CAST)، والتي تحقق فهمًا مكانيًا وزمانيًا متوازنًا لمقاطع الفيديو باستخدام مدخلات RGB فقط. الآلية المقترحة للانتباه المتقاطع في العنق الضيق تمكن النماذج المتخصصة في البعد المكاني والزماني من تبادل المعلومات وإجراء تنبؤات متناسقة، مما يؤدي إلى تحسين الأداء. قمنا بتحقق الطريقة المقترحة من خلال سلسلة من التجارب الواسعة على مقاييس عامة ذات خصائص مختلفة: EPIC-KITCHENS-100، Something-Something-V2، و Kinetics-400. طريقتنا تظهر باستمرار أداءً متفوقًا عبر هذه القواعد البيانات، بينما يختلف أداء الطرق الحالية اعتمادًا على خصائص القاعدة البيانات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp