DVIS: إطار فصل تجزئة الفيديو حسب المثيلات

التفصيل المثلي للفيديو (VIS) هو مهمة حاسمة لها تطبيقات متنوعة، مثل القيادة الذاتية وتحرير الفيديو. غالبًا ما ت Performs الطُرق الحالية بشكل غير كافٍ على مقاطع الفيديو المعقدة والطويلة في العالم الحقيقي، وذلك أساساً بسبب عاملين رئيسيين. أولاً، تقتصر الطرق الخارجية على نموذج التحليل المتداخل، الذي يتعامل مع جميع الإطارات بتساوي ويتجاهل العلاقات بين الإطارات المجاورة. نتيجة لذلك، يؤدي هذا إلى إدخال ضوضاء زائدة أثناء التوافق الزمني طويل المدى. ثانياً، تعاني الطرق المباشرة من عدم الاستفادة الكافية من المعلومات الزمنية. لمواجهة هذه التحديات، نقترح استراتيجية فصل لـ VIS من خلال تقسيمها إلى ثلاث مهام فرعية مستقلة: التقطيع (segmentation)، التتبع (tracking)، والتحسين (refinement). تعتمد فعالية استراتيجية الفصل على عنصرين حاسمين: 1) تحقيق نتائج توافق زمني طويل المدى دقيقة عبر ربط الإطارات تباعاً أثناء التتبع، و2) الاستخدام الفعال للمعلومات الزمنية بناءً على نتائج التوافق الدقيق المذكورة أعلاه أثناء عملية التحسين. نقدم تتبعًا جديدًا بالرجوع ومحسنًا زمنيًا لبناء إطار العمل \textbf{D}ecoupled \textbf{VIS} (\textbf{DVIS}). يحقق DVIS أداءً جديدًا يتفوق على أفضل الأداءات الحالية في كل من VIS وVPS، حيث يتجاوز الأساليب الحالية التي تعتبر الأكثر تحدياً وواقعية بمقدار 7.3 AP و9.6 VPQ على مجموعات بيانات OVIS وVIPSeg. بالإضافة إلى ذلك، بفضل استراتيجية الفصل، فإن محرك التتبع بالرجوع والمحسن الزمني خفيف الوزن للغاية (يمثل فقط 1.69٪ من عمليات النقط العائمة للجزء FLOPs)، مما يسمح بتدريب كفاءة واستدلال باستخدام جهاز معالجة الرسومات/Graphics Processing Unit (GPU) واحد ذي ذاكرة قدرها 11 جيجابايت.للحصول على الكود المصدر، يمكن زيارة الرابط التالي: \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS}.