التمييز السريع للأشياء في الفيديو بمساعدة المستخدم بواسطة شبكات التفاعل والانتشار

نقدم طريقة تعتمد على التعلم العميق لفصل الأشياء في الفيديو التفاعلي. تُبنى طرقتنا على عمليتين أساسيتين، هما التفاعل والانتشار، ويتم كل منهما باستخدام شبكات العصب الاصطناعي المتكررة (Convolutional Neural Networks). يتم ربط الشبكتين داخلياً وخارجياً بحيث يتم تدريبهما بشكل مشترك وتتفاعل مع بعضها البعض لحل مشكلة فصل الأشياء المعقدة في الفيديو. نقترح مخططاً جديداً للتدريب متعدد الدورات لفصل الأشياء في الفيديو التفاعلي، مما يتيح للشبكات تعلم كيفية فهم نوايا المستخدم وتحديث التقديرات الخاطئة أثناء التدريب. عند وقت الاختبار، تنتج طرقتنا نتائج ذات جودة عالية كما أنها تعمل بسرعة كافية للتعامل مع المستخدمين بشكل تفاعلي. قمنا بتقييم الطريقة المقترحة بشكل كمي على معيار المسار التفاعلي في تحدي DAVIS 2018. حققنا أداءً أفضل بكثير من الطرق المنافسة الأخرى في كل من السرعة والدقة. كما أظهرنا أن طرقتنا تعمل بشكل جيد مع التفاعلات الحقيقية للمستخدمين.