HyperAIHyperAI
منذ 2 أشهر

READMem: ترابط التضمين القوي لذاكرة متنوعة في تقسيم الأشياء في الفيديو بدون قيود

Stéphane Vujasinović; Sebastian Bullinger; Stefan Becker; Norbert Scherer-Negenborn; Michael Arens; Rainer Stiefelhagen
READMem: ترابط التضمين القوي لذاكرة متنوعة في تقسيم الأشياء في الفيديو بدون قيود
الملخص

نقدم READMem (إطار عمل متنوع وقوي للترابط المدمج)، وهو إطار عمل قابل للتقسيم مصمم لطرق تقسيم الأشياء في الفيديو شبه الآلية (sVOS) المخصصة لمعالجة مقاطع الفيديو غير المقيدة. تعمل الدراسات الحديثة في مجال sVOS عادةً على تجميع الإطارات الفيديوية في ذاكرة تتسع باستمرار، مما يتطلب موارد أجهزة عالية للممارسات طويلة الأمد. لخفض متطلبات الذاكرة ومنع التكرار القريب للأجسام (الذي ينتج عن معلومات الإطارات المجاورة)، قدّمت الطرق السابقة معامل فرعي يتحكم في تكرار الإطارات المؤهلة للتخزين. يجب ضبط هذا المعامل الفرعي وفقًا لخصائص الفيديو المحددة (مثل سرعة تغير الشكل ومدة الفيديو)، ولا يعمم بشكل جيد. بدلاً من ذلك، نقوم بدمج تضمين الإطار الجديد في الذاكرة فقط إذا زاد من تنوع محتوى الذاكرة. بالإضافة إلى ذلك، نقترح ترابطًا قويًا بين التضمينات المخزنة في الذاكرة والتضمينات الاستعلامية أثناء عملية التحديث. يتجنب نهجنا تراكم البيانات الزائدة، مما يتيح لنا بدوره تحديد حجم الذاكرة ومنع المتطلبات الذاكرية الشديدة في مقاطع الفيديو الطويلة. نوسّع أسس sVOS الشائعة باستخدام READMem، والتي أظهرت سابقًا أداءً محدودًا على مقاطع الفيديو الطويلة. يحقق نهجنا نتائج تنافسية على مجموعة بيانات الفيديو طويل الأمد (LV1) دون الحد من الأداء في التسلسلات القصيرة. رمز البرمجيات الخاص بنا متاح للجمهور.请注意,对于一些不太常见的术语,我在括号中添加了英文原文以确保信息完整。例如 "READMem" 和 "Long-time Video dataset (LV1)"。其他常见术语如“video object segmentation”(تقسيم الأشياء في الفيديو)和“query embeddings”(التضمينات الاستعلامية)已直接翻译为阿拉伯语。希望这能满足您的需求。

READMem: ترابط التضمين القوي لذاكرة متنوعة في تقسيم الأشياء في الفيديو بدون قيود | أحدث الأوراق البحثية | HyperAI