HyperAIHyperAI
منذ 12 أيام

شبكة انتباه موجهة متقاطعة غير متماثلة لتقسيم الفيديو الخاص بالشخصية والعملية من استعلام لغوي طبيعي

{ Dacheng Tao, Junchi Yan, Cheng Deng, Hao Wang}
شبكة انتباه موجهة متقاطعة غير متماثلة لتقسيم الفيديو الخاص بالشخصية والعملية من استعلام لغوي طبيعي
الملخص

يهدف التجزئة الفيلمية للشخصية والفعل بناءً على استفسار لغوي طبيعي إلى تقسيم الشخص والفعل المعنيين في الفيديو بشكل انتقائي استنادًا إلى وصف نصي مدخل. ركزت الدراسات السابقة بشكل أساسي على تعلم العلاقة البسيطة بين ميزتين غير متجانستين من الرؤية واللغة من خلال التصفية الديناميكية أو التصنيف المُكَوَّن بالكامل من التصفية. ومع ذلك، فإنها تتجاهل التباين اللغوي في الاستفسارات النصية الطبيعية، وتعاني من صعوبة في نمذجة السياق البصري العالمي، مما يؤدي إلى أداء غير مرضٍ في التجزئة. لمعالجة هذه المشكلات، نقترح شبكة انتباه موجهة غير متماثلة عبر المدخلات اللغوية والبصرية لتجميع التجزئة الفيلمية للشخصية والفعل بناءً على استفسار لغوي طبيعي. وبشكل محدد، نُقدِّم شبكة انتباه موجهة غير متماثلة تتألف من انتباه لغوي مُوجَّه بالبصريات لتقليل التباين اللغوي في الاستفسار المُدخل، وانتباه بصري مُوجَّه باللغة لدمج السياق البصري العالمي المرتبط بالاستفسار في آنٍ واحد. علاوةً على ذلك، نستخدم خطة دمج متعددة الدقة، ودالة خسارة موزونة للبكسلات المقدمة والخلفية، لتحقيق تحسين إضافي في الأداء. أظهرت التجارب الواسعة على مجموعتي بيانات Actor-Action Sentences وJ-HMDB Sentences أن النهج المقترح يتفوق بشكل ملحوظ على الطرق الرائدة في مجالها.

شبكة انتباه موجهة متقاطعة غير متماثلة لتقسيم الفيديو الخاص بالشخصية والعملية من استعلام لغوي طبيعي | أحدث الأوراق البحثية | HyperAI