BATMAN: محول الانتباه الثنائي في فضاء الحركة والمظهر المجاور لفصل الأشياء في الفيديو

التفريق بين الأشياء في الفيديو (VOS) هو جزء أساسي من فهم الفيديو. تظهر الطرق المستندة إلى التحويلات (Transformers) تحسينًا أداءً كبيرًا في التفريق شبه المشرف (semi-supervised VOS). ومع ذلك، فإن الأعمال الحالية تواجه تحديات في التفريق بين الأشياء البصرية المشابهة التي تكون قريبة من بعضها البعض. في هذا البحث، نقترح تحويلة انتباه ثنائية جديدة في مساحة الجوار الحركي-الظاهري (BATMAN) للفصل شبه المشرف بين الأشياء في الفيديو. تقوم هذه الطريقة بتحديد حركة الأشياء في الفيديو عبر وحدة تقدير جديدة للتدفق البصري (optical flow calibration module) تدمج قناع الفصل مع تقدير التدفق البصري لتحسين سلاسة التدفق البصري داخل الجسم وتقليل الضوضاء على حدود الجسم. يتم استخدام هذا التدفق البصري المُحَلَّف بعد ذلك في انتباهنا الثنائي الجديد، والذي يحسب التوافق بين الإطارات الاستعلامية والمرجعية في مساحة الجوار الثنائية بأخذ الحركة والمظهر بعين الاعتبار. تؤكد التجارب الواسعة فعالية بنية BATMAN من خلال تحقيق أفضل النتائج مقارنة بكافة الأساليب الرائدة الموجودة على جميع المقاييس الأربعة الشهيرة للفصل بين الأشياء في الفيديو: Youtube-VOS 2019 (85.0%)، Youtube-VOS 2018 (85.3%)، DAVIS 2017Val/Testdev (86.2%/82.2%)، وDAVIS 2016 (92.5%).