HyperAIHyperAI

Command Palette

Search for a command to run...

نمذجة الحركة باستخدام ميزات متعددة الوسائط للتحليل النصي للقطع الفيديو

Wangbo Zhao Kai Wang Xiangxiang Chu Fuzhao Xue Xinchao Wang Yang You

الملخص

تهدف التجزئة القائمة على النص في الفيديو إلى تقسيم الكائن المستهدف في مقطع فيديو بناءً على جملة وصفية. إن دمج معلومات الحركة المستمدة من خرائط التدفق البصري مع السمات البصرية واللغوية يُعد أمرًا بالغ الأهمية، ومع ذلك فقد تم تجاهله إلى حد كبير في الدراسات السابقة. في هذه الورقة، نصمم طريقة لدمج ومحاذاة السمات البصرية، والحركة، واللغوية لتحقيق تقسيم دقيق. بشكل خاص، نقترح نموذجًا متعدد الوسائط من نوع المُحَوِّل الفيديوي، الذي يمكنه دمج وجمع السمات متعددة الوسائط والزمنية بين الإطارات. علاوة على ذلك، صممنا وحدة دمج سمات موجهة لغويًا، تُجرى فيها عملية دمج تدريجي للسمات البصرية والحركة في كل مستوى من مستويات السمات، مع التوجيه من خلال السمات اللغوية. وأخيرًا، نقترح خسارة محاذاة متعددة الوسائط لتقليل الفجوة المعنى بين السمات المستمدة من وسائط مختلفة. وقد أثبتت التجارب الواسعة على مجموعتي بيانات A2D Sentences وJ-HMDB Sentences أداءً متميزًا وقدرة تعميم عالية مقارنة بالأساليب الرائدة في المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp