HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة CNN المكانية-الزمانية لفصل الأشياء في الفيديو

Kai Xu Longyin Wen Guorong Li Liefeng Bo Qingming Huang

الملخص

في هذا البحث، نقدم نموذج CNN مكاني-زماني موحد قابل للتدريب من البداية إلى النهاية لفصل الأشياء في الفيديو (VOS)، يتكون من فرعين، وهما: الفرع الزماني المتلاحم والفرع المكاني للتفصيل. تحديداً، يتم تدريب الفرع الزماني المتلاحم بشكل مسبق بطريقة معادية من بيانات الفيديو غير المصنفة، وهو مصمم لالتقاط مؤشرات المظهر الديناميكي وحركة سلسلة الفيديو لتوجيه فصل الأشياء. أما الفرع المكاني للتفصيل فيركز على فصل الأشياء بدقة بناءً على مؤشرات المظهر والحركة التي تم تعلمها. للحصول على نتائج تفصيل دقيقة، نصمم عملية من الخشن إلى الدقيق لتطبيق وحدة الانتباه المصممة تباعاً على خرائط الميزات متعددة المقاييس، ثم ربطها لإنتاج التنبؤ النهائي. بهذه الطريقة، يُجبر الفرع المكاني للتفصيل على التركيز تدريجياً على مناطق الأشياء. يتم ضبط هذين الفرعين بشكل مشترك ومفصل على سلاسل فصل الفيديو بطريقة شاملة من البداية إلى النهاية. تم إجراء عدة تجارب على ثلاثة مجموعات بيانات صعبة (أي DAVIS-2016 وDAVIS-2017 وYouTube-Object) لإظهار أن طريقتنا تحقق أداءً جيداً مقابل أفضل الأساليب الحالية. الرمز البرمجي متاح في https://github.com/longyin880815/STCNN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp