الشبكات الديناميكية المُنظَّمة بالسياق لتقسيم الفيديو حسب الفاعل والفعل باستخدام استعلامات لغوية
يهدف التجزئة الفعلية للأشخاص والإجراءات باستخدام استفسارات لغوية إلى تحديد الكائنات المقصودة في الفيديو وفقًا للتعبيرات المذكورة. يتطلب هذا الإجراء تفكيرًا لغويًا شاملاً وفهمًا دقيقًا للفيديو. في الطرق السابقة، تم استخدام بشكل رئيسي الشبكات التلافيفية الديناميكية لتوافق التمثيلات البصرية والمعنوية. ومع ذلك، فإن الشبكات التلافيفية الديناميكية تتجاهل السياق المكاني عند معالجة كل منطقة في الإطار، مما يجعلها عاجزة عن تجزئة الكائنات المتشابهة في السياقات المعقدة. لمعالجة هذه القيد، نقوم ببناء شبكة تلافيفية ديناميكية مُعدّلة بالسياق. وبشكل خاص، نقترح عملية تلافيفية ديناميكية مُعدّلة بالسياق ضمن الإطار المقترح. حيث تُولَّد نوى التلافيف الخاصة بكل منطقة من جملة لغوية وخصائص السياق المحيط. علاوةً على ذلك، نصمم مشغلًا زمنيًا لإدخال الحركات إلى التمثيلات البصرية لتحسين التوافق مع وصف الاستفسارات. أظهرت التجارب الواسعة على مجموعتي بيانات معياريتين، وهما مجموعة بيانات A2D Sentences وJ-HMDB Sentences، أن النهج المقترح يتفوق بشكل ملحوظ على الطرق الرائدة في مجالها.