فصل الخصائص في الانتشار الهرمي لتمييز الكائنات في الفيديو

يركز هذا البحث على تطوير طريقة أكثر فعالية للانتشار الهرمي في تقسيم الأشياء في الفيديو شبه المشرف (VOS). استنادًا إلى متحولات الرؤية، أثبتت الطريقة الحديثة التي تم تطويرها مؤخرًا والمتمثلة في ربط الأشياء بمتحولات (AOT) أنها مفيدة عند إدخال الانتشار الهرمي إلى VOS. يمكن أن يساعد الانتشار الهرمي تدريجيًا في نقل المعلومات من الإطارات السابقة إلى الإطار الحالي وتحويل خصائص الإطار الحالي من غير محددة للأشياء إلى محددة لها. ومع ذلك، فإن زيادة المعلومات المحددة للأشياء سيؤدي حتمًا إلى فقدان المعلومات البصرية غير المحددة للأشياء في طبقات الانتشار العميقة. لحل هذه المشكلة وتعزيز التعلم الدقيق للمتجهات البصرية، يقترح هذا البحث طريقة فصل الخصائص في الانتشار الهرمي (DeAOT). أولاً، تقوم DeAOT بفصل انتشار الخصائص غير المحددة للأشياء والخصائص المحددة لها عن طريق التعامل معهما في فرعين مستقلين. ثانيًا، لتعويض الحسابات الإضافية الناتجة عن انتشار الفرعين، نقترح وحدة كفاءة عالية لبناء الانتشار الهرمي وهي الوحدة ذات التحكم بالانتشار (Gated Propagation Module)، والتي تم تصميمها بعناية باستخدام انتباه رأس واحد (single-head attention). تظهر التجارب الواسعة أن DeAOT تتفوق بشكل كبير على AOT من حيث الدقة والكفاءة. على YouTube-VOS، يمكن لـ DeAOT تحقيق دقة 86.0% بمعدل 22.4 إطارًا في الثانية ودقة 82.0% بمعدل 53.4 إطارًا في الثانية. بدون تعزيزات وقت الاختبار، حققنا أفضل أداء جديد على مستوى الحالة الحالية في أربع مقاييس هي: YouTube-VOS (86.2%)، DAVIS 2017 (86.2%)، DAVIS 2016 (92.9%)، و VOT 2020 (0.622). صفحة المشروع: https://github.com/z-x-yang/AOT.