HyperAIHyperAI
منذ 3 أشهر

نمذجة الحركة باستخدام ميزات متعددة الوسائط للتحليل النصي للقطع الفيديو

Wangbo Zhao, Kai Wang, Xiangxiang Chu, Fuzhao Xue, Xinchao Wang, Yang You
نمذجة الحركة باستخدام ميزات متعددة الوسائط للتحليل النصي للقطع الفيديو
الملخص

تهدف التجزئة القائمة على النص في الفيديو إلى تقسيم الكائن المستهدف في مقطع فيديو بناءً على جملة وصفية. إن دمج معلومات الحركة المستمدة من خرائط التدفق البصري مع السمات البصرية واللغوية يُعد أمرًا بالغ الأهمية، ومع ذلك فقد تم تجاهله إلى حد كبير في الدراسات السابقة. في هذه الورقة، نصمم طريقة لدمج ومحاذاة السمات البصرية، والحركة، واللغوية لتحقيق تقسيم دقيق. بشكل خاص، نقترح نموذجًا متعدد الوسائط من نوع المُحَوِّل الفيديوي، الذي يمكنه دمج وجمع السمات متعددة الوسائط والزمنية بين الإطارات. علاوة على ذلك، صممنا وحدة دمج سمات موجهة لغويًا، تُجرى فيها عملية دمج تدريجي للسمات البصرية والحركة في كل مستوى من مستويات السمات، مع التوجيه من خلال السمات اللغوية. وأخيرًا، نقترح خسارة محاذاة متعددة الوسائط لتقليل الفجوة المعنى بين السمات المستمدة من وسائط مختلفة. وقد أثبتت التجارب الواسعة على مجموعتي بيانات A2D Sentences وJ-HMDB Sentences أداءً متميزًا وقدرة تعميم عالية مقارنة بالأساليب الرائدة في المجال.

نمذجة الحركة باستخدام ميزات متعددة الوسائط للتحليل النصي للقطع الفيديو | الأوراق البحثية | HyperAI