شبكة عقدية للفعل والفعل المُعيّن لتقسيم الفيديو القائم على النص

تهدف التجزئة القائمة على النص في الفيديو إلى تقسيم شخصية معينة في تسلسلات الفيديو من خلال تحديد الشخصية ونشاطها عبر استعلام نصي. تعاني الطرق السابقة من عدم قدرتها على محاذاة محتوى الفيديو مع الاستعلام النصي بشكل دقيق وفقًا للشخصية ونشاطها، وذلك بسبب مشكلة الانزياح الدلالي (semantic asymmetry). وتشير هذه الظاهرة إلى أن الوسائط المختلفة تحتوي على كميات مختلفة من المعلومات الدلالية أثناء عملية دمج الوسائط المتعددة. ولتخفيف هذه المشكلة، نقترح شبكة جديدة مبنية على وحدات شخصية ونشاط، تقوم بتحديد موقع الشخصية ونشاطها بشكل منفصل في وحدتين منفصلتين. وبشكل محدد، نبدأ بتعلم المحتوى المرتبط بالشخصية والنشاط من الفيديو والاستعلام النصي، ثم نقوم بتوافقهما بطريقة متزنة لتحديد الأنبوب المستهدف (target tube). ويحتوي هذا الأنبوب على الشخصية والنشاط المطلوبين، والذي يتم بعد ذلك تمريره عبر شبكة تلافيفية كاملة (fully convolutional network) للتنبؤ بقناعات التجزئة الخاصة بالشخصية. كما تُنشئ طريقتنا ارتباطات بين الكائنات عبر عدة إطارات باستخدام آلية اقتراح التجميع الزمني (temporal proposal aggregation) المقترحة. مما يمكّن طريقتنا من تجزئة الفيديو بكفاءة والحفاظ على اتساق التنبؤات عبر الزمن. ويُسمح للنموذج ككل بالتعلم المشترك بين تطابق الشخصية-النشاط وعملية التجزئة، ويحقق أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art) في كل من التجزئة الإطارية الفردية والتجزئة الكاملة للفيديو على مجموعتي بيانات A2D Sentences وJ-HMDB Sentences.