HyperAIHyperAI

Command Palette

Search for a command to run...

ترميز الموضع النسبي القطبي للتحليل المتعدد الوسائط الفيديو-اللغة

Qi Tian Fei Wu Lingxi Xie Ke Ning

الملخص

في هذه الورقة، نتناول مهمة صعبة تُسمى التجزئة المرئية-اللغوية. بالنظر إلى فيديو وجملة بلغة طبيعية، يكون الهدف هو تجزئة الكائن أو الفاعل الموصوف بالجملة في إطارات الفيديو. ولتمييز الكائن المستهدف بدقة، تشير الجملة المقدمة عادةً إلى عدة خصائص، مثل الكائنات القريبة مع علاقات مكانية، وغيرها. في هذه الورقة، نقترح آلية جديدة تُسمى ترميز الموضع النسبي القطبي (PRPE) التي تمثل العلاقات المكانية بطريقة "لغوية"، أي من حيث الاتجاه والمسافة. وتمكّن هذه الآلية التفاعل المباشر بين ميزات الجملة وتمثيلات الموضع لاستخراج العلاقات المكانية النسبية المُضمنة. كما نقترح دوالًا قابلة للتعديل (مُعامَلة) لتمثيلات الموضع هذه، لتتكيف مع الاتجاهات والمسافات ذات القيم الحقيقية. وباستخدام PRPE، نصمم وحدة انتباه قطبية (PAM) كوحدة أساسية لدمج الرؤية واللغة. وتفوق طريقة العمل لدينا الأفضل من بين الطرق السابقة بنسبة 11.4% في المقياس المطلق من حيث mAP على مجموعة بيانات A2D Sentences الصعبة. كما حققت طريقة العمل لدينا أداءً تنافسيًا على مجموعة بيانات J-HMDB Sentences.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp