HyperAIHyperAI
منذ 11 أيام

ترميز الموضع النسبي القطبي للتحليل المتعدد الوسائط الفيديو-اللغة

{Qi Tian, Fei Wu, Lingxi Xie, Ke Ning}
ترميز الموضع النسبي القطبي للتحليل المتعدد الوسائط الفيديو-اللغة
الملخص

في هذه الورقة، نتناول مهمة صعبة تُسمى التجزئة المرئية-اللغوية. بالنظر إلى فيديو وجملة بلغة طبيعية، يكون الهدف هو تجزئة الكائن أو الفاعل الموصوف بالجملة في إطارات الفيديو. ولتمييز الكائن المستهدف بدقة، تشير الجملة المقدمة عادةً إلى عدة خصائص، مثل الكائنات القريبة مع علاقات مكانية، وغيرها. في هذه الورقة، نقترح آلية جديدة تُسمى ترميز الموضع النسبي القطبي (PRPE) التي تمثل العلاقات المكانية بطريقة "لغوية"، أي من حيث الاتجاه والمسافة. وتمكّن هذه الآلية التفاعل المباشر بين ميزات الجملة وتمثيلات الموضع لاستخراج العلاقات المكانية النسبية المُضمنة. كما نقترح دوالًا قابلة للتعديل (مُعامَلة) لتمثيلات الموضع هذه، لتتكيف مع الاتجاهات والمسافات ذات القيم الحقيقية. وباستخدام PRPE، نصمم وحدة انتباه قطبية (PAM) كوحدة أساسية لدمج الرؤية واللغة. وتفوق طريقة العمل لدينا الأفضل من بين الطرق السابقة بنسبة 11.4% في المقياس المطلق من حيث mAP على مجموعة بيانات A2D Sentences الصعبة. كما حققت طريقة العمل لدينا أداءً تنافسيًا على مجموعة بيانات J-HMDB Sentences.

ترميز الموضع النسبي القطبي للتحليل المتعدد الوسائط الفيديو-اللغة | أحدث الأوراق البحثية | HyperAI