HyperAIHyperAI
منذ 2 أشهر

RefineVIS: تقسيم الفيديو إلى مثيلات مع تحسين الانتباه الزمني

Andre Abrantes; Jiang Wang; Peng Chu; Quanzeng You; Zicheng Liu
RefineVIS: تقسيم الفيديو إلى مثيلات مع تحسين الانتباه الزمني
الملخص

نقدم إطارًا جديدًا يُسمى RefineVIS لتقسيم الحالات في الفيديو (VIS) والذي يحقق ترابطًا جيدًا بين الأطر وقناعات تقسيم دقيقة من خلال تكرار تحسين التمثيلات باستخدام سياق المتتالية. يقوم RefineVIS بتعلم تمثيلين منفصلين فوق نموذج تقسيم الحالات في الصور على مستوى الإطار جاهز للاستخدام: تمثيل الترابط مسؤول عن ربط الأشياء عبر الأطر، وتمثيل التقسيم الذي ينتج قناعات تقسيم دقيقة. يتم استخدام التعلم المقارن لتعلم تمثيلات ترابط مستقرة زمنيًا. يقوم وحدة تحسين الانتباه الزمني (TAR) بتعلم تمثيلات تقسيم تمييزية باستغلال العلاقات الزمنية وتقنية تنظيف مقارنة زمنية جديدة. دعمنا طريقة الاستدلال المباشر والغير مباشر. بلغت دقتنا في تقسيم الحالات في الفيديو إلى أفضل المستويات الحالية على مجموعات البيانات YouTube-VIS 2019 (64.4 AP)، YouTube-VIS 2021 (61.4 AP)، وOVIS (46.1 AP). تظهر الرسوم البيانية أن وحدة TAR يمكنها إنتاج قناعات تقسيم حالات أكثر دقة، خاصة في الحالات الصعبة مثل الأشياء المحجوبة بشدة.