مُقَسِّم فيديو بسيط من خلال تتبع الأشياء على مسارات محورية

يحتاج تقسيم الفيديو إلى تقسيم وتتبع الأشياء بثبات على مر الزمن. نظرًا لارتباطه التربيعي بحجم المدخلات، فإن تطبيق الانتباه الذاتي مباشرة على تقسيم الفيديو مع ميزات دخول ذات دقة عالية يشكل تحديات كبيرة، غالبًا ما يؤدي إلى نقص في سعة ذاكرة الوحدة المعالجة الرسومية (GPU). لذلك، فإن أحدث أنظمة تقسيم الفيديو إما تمتد من نظام تقسيم الصور دون إدخال أي انتباه زمني أو تستند إلى انتباه المساحة-الزمن النافذة بطريقة بسيطة. في هذا البحث، نقدم Axial-VS، وهو إطار عام وبسيط يعزز أنظمة تقسيم الفيديو من خلال تتبع الأشياء على طول المسارات المحورية. يتعامل الإطار مع تقسيم الفيديو من خلال مهمتين فرعيتين: التقسيم قصير المدى داخل القطع وتعقب طويل المدى عبر القطع. في الخطوة الأولى، يقوم Axial-VS بتدعيم نظام تقسيم الفيديو المستخدم جاهزًا للقطع بالانتباه المحوري المقترح، حيث يتم تتبع الأشياء بشكل متتابع على طول المسارات العمودية والأفقية داخل القطعة، مما يعزز التجانس الزمني عن طريق التقاط مسارات الحركة. تقوم التحليل المحوري بتقليل التعقيد الحسابي للميزات الكثيفة بشكل كبير، ويتفوق على انتباه المساحة-الزمن النافذة في جودة التقسيم. في الخطوة الثانية، نقوم باستخدام الانتباه المحوري أيضًا للأسئلة المرتبطة بالأجسام في أنظمة تقسيم الفيديو القائمة على القطع، والتي يتم تعلمها لتشفير المعلومات المتعلقة بالأجسام، مما يساعد في تعقب الأجسام عبر القطع المختلفة وتحقيق التقسيم الثابت طوال الفيديو. بدون أي زخارف أو حيل خاصة، يظهر Axial-VS نتائج رائدة على مقاييس تقسيم الفيديو، مما يؤكد فعاليته في معالجة قيود أحدث أنظمة تقسيم الفيديو القائمة على القطع. يمكن الحصول على الكود والنماذج من https://github.com/TACJu/Axial-VS.