نمذجة الحركة باستخدام ميزات متعددة الوسائط للتحليل النصي للقطع الفيديو

تهدف التجزئة القائمة على النص في الفيديو إلى تقسيم الكائن المستهدف في مقطع فيديو بناءً على جملة وصفية. إن دمج معلومات الحركة المستمدة من خرائط التدفق البصري مع السمات البصرية واللغوية يُعد أمرًا بالغ الأهمية، ومع ذلك فقد تم تجاهله إلى حد كبير في الدراسات السابقة. في هذه الورقة، نصمم طريقة لدمج ومحاذاة السمات البصرية، والحركة، واللغوية لتحقيق تقسيم دقيق. بشكل خاص، نقترح نموذجًا متعدد الوسائط من نوع المُحَوِّل الفيديوي، الذي يمكنه دمج وجمع السمات متعددة الوسائط والزمنية بين الإطارات. علاوة على ذلك، صممنا وحدة دمج سمات موجهة لغويًا، تُجرى فيها عملية دمج تدريجي للسمات البصرية والحركة في كل مستوى من مستويات السمات، مع التوجيه من خلال السمات اللغوية. وأخيرًا، نقترح خسارة محاذاة متعددة الوسائط لتقليل الفجوة المعنى بين السمات المستمدة من وسائط مختلفة. وقد أثبتت التجارب الواسعة على مجموعتي بيانات A2D Sentences وJ-HMDB Sentences أداءً متميزًا وقدرة تعميم عالية مقارنة بالأساليب الرائدة في المجال.