HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تقسيم كائنات الفيديو باستخدام الذاكرة البصرية

Pavel Tokmakov Karteek Alahari Cordelia Schmid

الملخص

يتناول هذا البحث مهمة تقسيم الأشياء المتحركة في مقاطع الفيديو غير المقيدة. نقدم شبكة عصبية ثنائية التيار مجهزة بوحدة ذاكرة صريحة لتحقيق هذا الهدف. يشفر التياران في الشبكة الخصائص المكانية والزمانية في سلسلة الفيديو على التوالي، بينما تلتقط وحدة الذاكرة تطور الأشياء عبر الزمن. يتم تحقيق الوحدة التي تبني "الذاكرة البصرية" في الفيديو، أي تمثيل مشترك لجميع إطارات الفيديو، باستخدام وحدة متكررة ارتباطية تعلم من عدد قليل من سلاسل الفيديو التدريبية. بناءً على إطار الفيديو كمدخل، يقوم نهجنا بتعيين تصنيف لكل بكسل كجزء من كائن أو خلفية، استنادًا إلى الخصائص المكانية-الزمانية المُتعلمة وكذلك "الذاكرة البصرية" الخاصة بالفيديو والمكتسبة تلقائيًا دون الحاجة إلى أي إطارات مُشَرَّحَة يدويًا. يتم تنفيذ الذاكرة البصرية باستخدام وحدات ارتباطية مغلقة بالبوابات ارتباطيًا (Convolutional Gated Recurrent Units)، مما يسمح بنشر المعلومات المكانية عبر الزمن. قمنا بتقييم طريقتنا بشكل شامل على معيارين رئيسيين، وهما مجموعة بيانات تقسيم الحركة DAVIS ومجموعة بيانات Freiburg-Berkeley لتقسيم الحركة، وأظهرنا نتائجًا رائدة في المجال. على سبيل المثال، يتفوق نهجنا على أفضل طريقة في مجموعة بيانات DAVIS بنسبة تقارب 6%. كما قمنا بتقديم تحليل تقليصي مفصل للتحقيق في تأثير كل عنصر في الإطار المقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp