HyperAIHyperAI

Command Palette

Search for a command to run...

BATMAN: محول الانتباه الثنائي في فضاء الحركة والمظهر المجاور لفصل الأشياء في الفيديو

Ye Yu Jialin Yuan Gaurav Mittal Li Fuxin Mei Chen

الملخص

التفريق بين الأشياء في الفيديو (VOS) هو جزء أساسي من فهم الفيديو. تظهر الطرق المستندة إلى التحويلات (Transformers) تحسينًا أداءً كبيرًا في التفريق شبه المشرف (semi-supervised VOS). ومع ذلك، فإن الأعمال الحالية تواجه تحديات في التفريق بين الأشياء البصرية المشابهة التي تكون قريبة من بعضها البعض. في هذا البحث، نقترح تحويلة انتباه ثنائية جديدة في مساحة الجوار الحركي-الظاهري (BATMAN) للفصل شبه المشرف بين الأشياء في الفيديو. تقوم هذه الطريقة بتحديد حركة الأشياء في الفيديو عبر وحدة تقدير جديدة للتدفق البصري (optical flow calibration module) تدمج قناع الفصل مع تقدير التدفق البصري لتحسين سلاسة التدفق البصري داخل الجسم وتقليل الضوضاء على حدود الجسم. يتم استخدام هذا التدفق البصري المُحَلَّف بعد ذلك في انتباهنا الثنائي الجديد، والذي يحسب التوافق بين الإطارات الاستعلامية والمرجعية في مساحة الجوار الثنائية بأخذ الحركة والمظهر بعين الاعتبار. تؤكد التجارب الواسعة فعالية بنية BATMAN من خلال تحقيق أفضل النتائج مقارنة بكافة الأساليب الرائدة الموجودة على جميع المقاييس الأربعة الشهيرة للفصل بين الأشياء في الفيديو: Youtube-VOS 2019 (85.0%)، Youtube-VOS 2018 (85.3%)، DAVIS 2017Val/Testdev (86.2%/82.2%)، وDAVIS 2016 (92.5%).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp