نهج ثلاثي الأبعاد باستخدام التحويلات المتعددة للفروع في تقسيم الأشياء الطيفية في الفضاء والزمان

نقوم بصياغة تقسيم الأشياء في الفيديو كمشكلة تقسيم الرسم البياني في الفضاء والزمن، حيث تكون العقد هي البكسلات وعلاقاتها تشكل جوارًا محليًا. ندعي أن أقوى مجموعة في هذا الرسم البياني على مستوى البكسل تمثل تقسيم الأشياء البارزة. نحسب المجموعة الرئيسية باستخدام تقنية تصفية ثلاثية الأبعاد جديدة وسريعة تجد حل التجميع الطيفي، أي المتجه الذاتي الرئيسي لمصفوفة الجوار للرسم البياني، دون بناء المصفوفة بشكل صريح - وهو ما سيكون غير قابل للتنفيذ. طريقتنا تعتمد على التكرار القوي لايجاد المتجه الذاتي الرئيسي لمصفوفة، والذي نثبت أنه يعادل تنفيذ مجموعة محددة من الإقرانات الثلاثية الأبعاد في الحجم المميز للفضاء والزمن. هذا يتيح لنا تجنب إنشاء المصفوفة ويتيح لنا تنفيذ متوازي سريع على وحدة معالجة الرسومات (GPU). نظهر أن طريقتنا أسرع بكثير من التكرار القوي التقليدي الذي يتم تطبيقه مباشرة على مصفوفة الجوار. على عكس الأعمال الأخرى، فإن عملنا مخصص للحفاظ على اتساق الكائن في الفضاء والزمن على مستوى البكسلات. لهذا السبب، يتطلب وجود خصائص بكسلية قوية عند مستوى الإطار. هذا يجعلها مناسبة تمامًا لدمج نتيجة شبكة النواة أو طرق أخرى وتحسينها بسرعة فوق حلولها بدون إشراف. في التجارب، نحصل على تحسينات متسقة، باستخدام نفس مجموعة المعلمات الأولية، فوق أفضل الطرق المتقدمة في مجموعة بيانات DAVIS-2016، سواءً في المهام غير المنظورة أو شبه المنظورة. كما حققنا أفضل النتائج في مجموعة البيانات المعروفة SegTrackv2.