HyperAIHyperAI

Command Palette

Search for a command to run...

InstanceFormer: إطار عمل للتحليل التوافقي للقطع في الفيديو الزمني

Rajat Koner Tanveer Hannan Suprosanna Shit Sahand Sharifzadeh Matthias Schubert Thomas Seidl Volker Tresp

الملخص

تحقيق الطرق الحديثة القائمة على المحولات (transformer) لفصل محددات الفيديو الخارجي (VIS) نتائج مثيرة للإعجاب، وتتفوق بشكل كبير على الطرق المباشرة (online). ومع ذلك، فإن اعتمادها على الفيديو الكامل، إلى جانب التعقيد الحسابي الهائل الناتج عن الانتباه الشامل الزمني-المكاني (Spatio-temporal attention)، يحد من تطبيقاتها الفعلية، خاصة في معالجة مقاطع الفيديو الطويلة. في هذه الورقة، نقترح إطارًا فعّالًا مباشرًا (online) يعتمد على المحولات يُسمى InstanceFormer، وهو مصمم خصيصًا لمعالجة مقاطع الفيديو الطويلة والصعبة. نقدّم ثلاث مكونات جديدة لتمثيل الاعتماد على المدى القصير والطويل، وتحقيق التماسك الزمني. أولاً، نُنقل تمثيلات المواقع والمعلومات الدلالية للمحددات السابقة لتمثيل التغيرات القصيرة المدى. ثانيًا، نقترح انتباهًا متقاطعًا ذا ذاكرة (memory cross-attention) جديدًا في الجزء الترميمي (decoder)، يسمح للشبكة بالنظر إلى المحددات السابقة ضمن نافذة زمنية محددة. ثالثًا، نستخدم خسارة تباينية زمنية (temporal contrastive loss) لفرض تماسك تمثيل المحدد عبر جميع الإطارات. يُعد الانتباه إلى الذاكرة والتماسك الزمني مفيدًا بشكل خاص في نمذجة الاعتماد على المدى الطويل، بما في ذلك السيناريوهات الصعبة مثل التغطية (الإغلاق). يتفوق InstanceFormer على الطرق السابقة المباشرة بفارق كبير عبر عدة مجموعات بيانات. والأهم من ذلك، يتجاوز InstanceFormer الطرق الخارجة (offline) في المجموعات الصعبة والطويلة مثل YouTube-VIS-2021 وOVIS. يمكن الوصول إلى الكود عبر الرابط: https://github.com/rajatkoner08/InstanceFormer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
InstanceFormer: إطار عمل للتحليل التوافقي للقطع في الفيديو الزمني | مستندات | HyperAI