HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة عقدية للفعل والفعل المُعيّن لتقسيم الفيديو القائم على النص

Jianhua Yang Yan Huang Kai Niu Linjiang Huang Zhanyu Ma Liang Wang

الملخص

تهدف التجزئة القائمة على النص في الفيديو إلى تقسيم شخصية معينة في تسلسلات الفيديو من خلال تحديد الشخصية ونشاطها عبر استعلام نصي. تعاني الطرق السابقة من عدم قدرتها على محاذاة محتوى الفيديو مع الاستعلام النصي بشكل دقيق وفقًا للشخصية ونشاطها، وذلك بسبب مشكلة الانزياح الدلالي (semantic asymmetry). وتشير هذه الظاهرة إلى أن الوسائط المختلفة تحتوي على كميات مختلفة من المعلومات الدلالية أثناء عملية دمج الوسائط المتعددة. ولتخفيف هذه المشكلة، نقترح شبكة جديدة مبنية على وحدات شخصية ونشاط، تقوم بتحديد موقع الشخصية ونشاطها بشكل منفصل في وحدتين منفصلتين. وبشكل محدد، نبدأ بتعلم المحتوى المرتبط بالشخصية والنشاط من الفيديو والاستعلام النصي، ثم نقوم بتوافقهما بطريقة متزنة لتحديد الأنبوب المستهدف (target tube). ويحتوي هذا الأنبوب على الشخصية والنشاط المطلوبين، والذي يتم بعد ذلك تمريره عبر شبكة تلافيفية كاملة (fully convolutional network) للتنبؤ بقناعات التجزئة الخاصة بالشخصية. كما تُنشئ طريقتنا ارتباطات بين الكائنات عبر عدة إطارات باستخدام آلية اقتراح التجميع الزمني (temporal proposal aggregation) المقترحة. مما يمكّن طريقتنا من تجزئة الفيديو بكفاءة والحفاظ على اتساق التنبؤات عبر الزمن. ويُسمح للنموذج ككل بالتعلم المشترك بين تطابق الشخصية-النشاط وعملية التجزئة، ويحقق أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art) في كل من التجزئة الإطارية الفردية والتجزئة الكاملة للفيديو على مجموعتي بيانات A2D Sentences وJ-HMDB Sentences.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp