HyperAIHyperAI
منذ 2 أشهر

FEELVOS: التعلم السريع للتمثيل المضمن من النهاية إلى النهاية لفصل الأشياء في الفيديو

Paul Voigtlaender; Yuning Chai; Florian Schroff; Hartwig Adam; Bastian Leibe; Liang-Chieh Chen
FEELVOS: التعلم السريع للتمثيل المضمن من النهاية إلى النهاية لفصل الأشياء في الفيديو
الملخص

العديد من الطرق الناجحة الحديثة لفصل الأشياء في الفيديو (VOS) معقدة بشكل مفرط، تعتمد بشكل كبير على التحسين الدقيق للإطار الأول، و/أو بطيئة، ولذلك فهي ذات استخدام عملي محدود. في هذا البحث، نقترح طريقة FEELVOS البسيطة والسريعة التي لا تعتمد على التحسين الدقيق. لفصل الفيديو، تستخدم FEELVOS لكل إطار تمثيلًا دلاليًا بكسلات مع آلية مطابقة عالمية ومحلية لنقل المعلومات من الإطار الأول ومن الإطار السابق في الفيديو إلى الإطار الحالي. على عكس الأعمال السابقة، يتم استخدام التمثيل الدلالي لدينا فقط كإرشاد داخلي لشبكة التحويلات التلافيفية. يسمح رأس الفصل الديناميكي الجديد لدينا لنا بتدريب الشبكة، بما في ذلك التمثيل الدلالي، بطريقة شاملة للمهمة الخاصة بفصل الأشياء المتعددة باستخدام خسارة التقاطع الانتروبي. نحقق مستوى جديدًا من التقدم في فصل الأشياء في الفيديو دون الحاجة إلى التحسين الدقيق بمقياس J&F قدره 71.5٪ على مجموعة تحقق DAVIS 2017. نوفر شفرتنا البرمجية ونماذجنا على الرابط https://github.com/tensorflow/models/tree/master/research/feelvos.

FEELVOS: التعلم السريع للتمثيل المضمن من النهاية إلى النهاية لفصل الأشياء في الفيديو | أحدث الأوراق البحثية | HyperAI