Tube-Link: إطار مرن عبر الأنابيب للتقسيم الشامل للفيديو

يهدف تقسيم الفيديو إلى فصل وتتبع كل بكسل بدقة في سيناريوهات متنوعة. في هذا البحث، نقدم إطارًا متعدد الاستخدامات يُسمى "Tube-Link" (توب-لينك) الذي يعالج العديد من المهام الأساسية لتقسيم الفيديو باستخدام بنية موحدة. يتبنى إطاراتنا نهجًا شبه عبر الإنترنت حيث يأخذ جزءًا قصيرًا من الفيديو كمدخل ويعطي الأقنعة المكانية-الزمانية المقابلة كمخرج. لتعزيز نمذجة العلاقات بين الأنابيب، نقترح طريقة فعالة لأداء ربط على مستوى الأنبوب من خلال الانتباه إلى الاستفسارات. بالإضافة إلى ذلك، نقدم تعلم التباين الزمني للخصائص التمييزية لكل حالة لربط على مستوى الأنبوب. تقدم طريقتنا مرونة وكفاءة لكل من مقاطع الفيديو القصيرة والطويلة، حيث يمكن تغيير طول كل جزء فرعي حسب احتياجات البيانات أو السيناريوهات. يتفوق Tube-Link بشكل كبير على الهياكل المتخصصة الموجودة بمقدار كبير في خمسة مجموعات بيانات لتقسيم الفيديو. تحديداً، حقق تحسينات نسبية تبلغ حوالي 13% في VIPSeg و4% في KITTI-STEP مقارنة بالأساس القوي Video K-Net. عند استخدام هيكل ResNet50 الأساسي على Youtube-VIS-2019 و2021، يعزز Tube-Link النموذج IDOL بنسبة 3% و4% على التوالي.