Command Palette
Search for a command to run...
تعلم ما يجب تعلمه لفصل الأشياء في الفيديو
تعلم ما يجب تعلمه لفصل الأشياء في الفيديو
Goutam Bhat* Felix Järemo Lawin* Martin Danelljan Andreas Robinson Michael Felsberg Luc Van Gool Radu Timofte
الملخص
التفتيش عن الكائنات في الفيديو (VOS) هو مشكلة شديدة الصعوبة، نظرًا لأن الكائن المستهدف يتم تعريفه فقط أثناء الاستدلال باستخدام قناع مرجعي محدد للإطار الأول. لا تزال مشكلة كيفية التقاط واستخدام هذه المعلومات المحدودة عن الكائن المستهدف سؤالًا بحثيًا أساسيًا. نعالج هذا الأمر من خلال تقديم هندسة قابلة للتدريب من البداية إلى النهاية لتفتيش كائنات الفيديو تدمج وحدة تعلم قليل الإطارات قابلة للمفاضلة. تم تصميم هذا المتعلم الداخلي لتوقع نموذج معلمي قوي للكائن المستهدف من خلال تقليل خطأ التقطيع في الإطار الأول. نتجاوز أيضًا تقنيات التعلم القليل الإطارات القياسية من خلال تعلم ما يجب على المتعلم القليل الإطارات أن يتعلمه. هذا يسمح لنا بتحقيق تمثيل داخلي غني للكائن المستهدف في الإطار الحالي، مما يزيد بشكل كبير من دقة التقطيع في نهجنا. نقوم بإجراء تجارب واسعة النطاق على عدة مقاييس. يحدد نهجنا مستوى جديد من الطليعية على مجموعة بيانات YouTube-VOS 2018 الضخمة بتحقيق درجة إجمالية قدرها 81.5، والتي تعادل تحسينًا نسبيًا بنسبة 2.6% على أفضل نتيجة سابقة.