شبكات تجميع الذاكرة لتحسين كفاءة تقسيم الأشياء التفاعلية في الفيديو

يهدف تقسيم الأشياء في الفيديو التفاعلي (iVOS) إلى الحصول بكفاءة على أقنعة تقسيم ذات جودة عالية للهدف في الفيديو من خلال التفاعلات المستخدم. ومع ذلك، فإن معظم الطرق الرائدة سابقًا تتعامل مع iVOS باستخدام شبكتين مستقلتين لإجراء التفاعل المستخدم والانتشار الزمني على التوالي، مما يؤدي إلى كفاءات منخفضة أثناء مرحلة الاستدلال. في هذا العمل، نقترح إطارًا موحدًا باسم شبكات تجميع الذاكرة (MA-Net) لمعالجة تحدي iVOS بطرق أكثر كفاءة. يدمج إطارنا MA-Net عمليات التفاعل والانتشار في شبكة واحدة، مما يعزز بشكل كبير كفاءة iVOS في نظام التفاعلات المتعددة الدورات. وأكثر أهمية من ذلك، نقترح آلية تجميع ذاكرة بسيطة ولكنها فعالة لتتبع المعرفة المعلوماتية من دورات التفاعل السابقة، مما يحسن بشكل كبير صلابة اكتشاف الأشياء المعقدة محل الاهتمام. نقوم بإجراء تجارب واسعة النطاق على مجموعة التحقق من صحة معيار DAVIS Challenge 2018. وبشكل خاص، حققت شبكتنا MA-Net درجة J@60 بنسبة 76.1% دون أي تعديلات أو إضافات خاصة، مما يتفوق على أفضل الأساليب الحالية بأكثر من 2.7%.