HyperAIHyperAI

Command Palette

Search for a command to run...

STC: التعلم المتناقض المكاني الزمني لفصل المحددات الفيديوية

Zhengkai Jiang Zhangxuan Gu Jinlong Peng Hang Zhou Liang Liu Yabiao Wang Ying Tai Chengjie Wang Liqing Zhang

الملخص

يُعد تصنيف الفيديو للInstances (VIS) مهمة تتطلب في آنٍ واحد تصنيفًا، وتقسيمًا، وربطًا للInstances داخل مقاطع الفيديو. تعتمد الطرق الحديثة لـ VIS على خطوط أنابيب معقدة لتحقيق هذه الغاية، بما في ذلك عمليات مرتبطة بـ RoI أو التحويلات الثلاثية الأبعاد. على النقيض من ذلك، نقدم إطارًا بسيطًا وفعالًا لـ VIS من مرحلة واحدة، مستندًا إلى طريقة تصنيف الInstances CondInst، مع إضافة رأس تتبع إضافي. ولتحسين دقة ربط الInstances، نقترح استراتيجية جديدة للتعلم التبايني المزدوج الاتجاه في الفضاء والزمن لتمثيلات التتبع عبر الإطارات. علاوةً على ذلك، نستخدم خطة اتساق زمني على مستوى كل Instance لضمان نتائج متسقة زمنيًا. وقد أثبتت التجارب التي أُجريت على مجموعات البيانات YouTube-VIS-2019 وYouTube-VIS-2021 وOVIS-2021 فعالية وكفاءة الطريقة المقترحة. نأمل أن يُصبح الإطار المُقترح بديلاً بسيطًا وقويًا لعدة مهام أخرى مرتبطة بربط الInstances في الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp