HyperAIHyperAI

Command Palette

Search for a command to run...

التصنيف المكاني-زماني للعمليات من البداية إلى النهاية باستخدام متحولات الفيديو

Alexey Gritsenko; Xuehan Xiong; Josip Djolonga; Mostafa Dehghani; Chen Sun; Mario Lučić; Cordelia Schmid; Anurag Arnab

الملخص

النماذج الأكثر كفاءة في تحديد الأفعال المكانية-الزمانية تستخدم اقتراحات خارجية للأشخاص وبنوك ذاكرة خارجية معقدة. نقترح نموذجاً كاملاً من النهاية إلى النهاية يعتمد فقط على الترانسفورمر، والذي يتعامل مباشرة مع الفيديو المدخل ويخرج أنبوبات (tubelets) - وهي سلسلة من الصناديق الحدودية وأصناف الأفعال في كل إطار. يمكن تدريب نموذجنا المرنة إما باستخدام إشراف نادر على الصناديق الحدودية في الإطارات الفردية، أو باستخدام شروح كاملة لأنبوبات (tubelets). وفي كلا الحالتين، يقوم بتوقع أنبوبات متماسكة كمخرج. بالإضافة إلى ذلك، لا يتطلب نموذجنا من النهاية إلى النهاية أي معالجة أولية على شكل اقتراحات، أو معالجة لاحقة بخصوص القمع غير الأقصى. أجرينا تجارب استبعاد واسعة النطاق، وحققنا تقدماً كبيراً في نتائج الطليعة العلمية (state-of-the-art) على أربعة مقاييس مختلفة لتحديد الأفعال المكانية-الزمانية باستخدام كل من الإطارات الرئيسية النادرة والشروح الكاملة لأنبوبات (tubelets).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp