فصل الأشياء الفيديوية التفاعلية باستخدام وحدات النقل العالمية والمحلية

يُقترح في هذا البحث خوارزمية تجزئة كائنات الفيديو التفاعلية، والتي تأخذ شروحات المستخدم على الكائنات المطلوبة كمدخلات. قمنا بتطوير شبكة عصبية عميقة تتكون من شبكة الشروح (A-Net) وشبكة النقل (T-Net). أولاً، عند تقديم شروحات المستخدم على إطار معين، تقوم A-Net بإنتاج نتيجة تجزئة تعتمد على بنية المشفّر-المفكك (الإنكودر-الديكودر). ثانياً، تقوم T-Net بنقل نتيجة التجزئة بشكل ثنائي الاتجاه إلى الإطارات الأخرى باستخدام وحدات النقل العالمية والمحلية. تعمل الوحدة العالمية للنقل على نقل معلومات التجزئة من الإطار المشروح إلى الإطار المستهدف، بينما تعمل الوحدة المحلية للنقل على نشر معلومات التجزئة من الإطار المجاور زمنياً إلى الإطار المستهدف. عن طريق تطبيق A-Net وT-Net بالتناوب، يمكن للمستخدم الحصول على نتائج التجزئة المرغوبة بأقل جهد ممكن. نقوم بتدريب الشبكة الكاملة في مرحلتين، من خلال تقليد شروحات المستخدم واستخدام خسارة مساعدة. تظهر النتائج التجريبية أن الخوارزمية التفاعلية المقترحة لتجزئة كائنات الفيديو تتفوق على الخوارزميات التقليدية الأكثر تقدماً. يمكن الوصول إلى الأكواد والنموذج عبر الرابط: https://github.com/yuk6heo/IVOS-ATNet.