XMem: تقسيم الأشياء في الفيديو على المدى الطويل باستخدام نموذج الذاكرة أتكينسون-شيفرين

نقدم XMem، وهي هندسة تقسيم الأشياء في الفيديو للفيديوهات الطويلة مع مخازن ذاكرة موحدة مستوحاة من نموذج الذاكرة أتكينسون-شيفرين (Atkinson-Shiffrin). الأعمال السابقة في مجال تقسيم الأشياء في الفيديو غالبًا ما تستخدم نوعًا واحدًا فقط من ذاكرة الميزات. بالنسبة للفيديوهات التي تتجاوز مدتها دقيقة واحدة، فإن نموذج ذاكرة الميزات الواحد يربط بين استهلاك الذاكرة والدقة بشكل وثيق. على العكس من ذلك، وباستلهام من نموذج أتكينسون-شيفرين، قمنا بتطوير هندسة تضم عدة مخازن ذاكرة للميزات مستقلة ومعتمدة بعمق: ذاكرة حسية يتم تحديثها بسرعة، وذاكرة عمل ذات دقة عالية، وذاكرة طويلة الأمد مضغوطة ومستدامة. بشكل حاسم، قمنا بتطوير خوارزمية تعزيز الذاكرة تقوم بشكل روتيني بتثبيت عناصر الذاكرة العاملة المستخدمة بكثافة في الذاكرة طويلة الأمد، مما يتجنب انفجار الذاكرة ويقلل من تدهور الأداء في التنبؤ طويل الأمد. بالاشتراك مع آلية جديدة لقراءة الذاكرة، يتفوق XMem بشكل كبير على أفضل الأداء الحالي في مجموعات بيانات الفيديوهات الطويلة بينما يكون على مستوى أفضل الأساليب الحالية (التي لا تعمل على الفيديوهات الطويلة) في مجموعات بيانات الفيديوهات القصيرة. الرمز البرمجي متاح على https://hkchengrex.github.io/XMem