HyperAIHyperAI

Command Palette

Search for a command to run...

XMem: تقسيم الأشياء في الفيديو على المدى الطويل باستخدام نموذج الذاكرة أتكينسون-شيفرين

Ho Kei Cheng Alexander G. Schwing

الملخص

نقدم XMem، وهي هندسة تقسيم الأشياء في الفيديو للفيديوهات الطويلة مع مخازن ذاكرة موحدة مستوحاة من نموذج الذاكرة أتكينسون-شيفرين (Atkinson-Shiffrin). الأعمال السابقة في مجال تقسيم الأشياء في الفيديو غالبًا ما تستخدم نوعًا واحدًا فقط من ذاكرة الميزات. بالنسبة للفيديوهات التي تتجاوز مدتها دقيقة واحدة، فإن نموذج ذاكرة الميزات الواحد يربط بين استهلاك الذاكرة والدقة بشكل وثيق. على العكس من ذلك، وباستلهام من نموذج أتكينسون-شيفرين، قمنا بتطوير هندسة تضم عدة مخازن ذاكرة للميزات مستقلة ومعتمدة بعمق: ذاكرة حسية يتم تحديثها بسرعة، وذاكرة عمل ذات دقة عالية، وذاكرة طويلة الأمد مضغوطة ومستدامة. بشكل حاسم، قمنا بتطوير خوارزمية تعزيز الذاكرة تقوم بشكل روتيني بتثبيت عناصر الذاكرة العاملة المستخدمة بكثافة في الذاكرة طويلة الأمد، مما يتجنب انفجار الذاكرة ويقلل من تدهور الأداء في التنبؤ طويل الأمد. بالاشتراك مع آلية جديدة لقراءة الذاكرة، يتفوق XMem بشكل كبير على أفضل الأداء الحالي في مجموعات بيانات الفيديوهات الطويلة بينما يكون على مستوى أفضل الأساليب الحالية (التي لا تعمل على الفيديوهات الطويلة) في مجموعات بيانات الفيديوهات القصيرة. الرمز البرمجي متاح على https://hkchengrex.github.io/XMem


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
XMem: تقسيم الأشياء في الفيديو على المدى الطويل باستخدام نموذج الذاكرة أتكينسون-شيفرين | مستندات | HyperAI