HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة انتباه موجهة متقاطعة غير متماثلة لتقسيم الفيديو الخاص بالشخصية والعملية من استعلام لغوي طبيعي

Dacheng Tao Junchi Yan Cheng Deng Hao Wang

الملخص

يهدف التجزئة الفيلمية للشخصية والفعل بناءً على استفسار لغوي طبيعي إلى تقسيم الشخص والفعل المعنيين في الفيديو بشكل انتقائي استنادًا إلى وصف نصي مدخل. ركزت الدراسات السابقة بشكل أساسي على تعلم العلاقة البسيطة بين ميزتين غير متجانستين من الرؤية واللغة من خلال التصفية الديناميكية أو التصنيف المُكَوَّن بالكامل من التصفية. ومع ذلك، فإنها تتجاهل التباين اللغوي في الاستفسارات النصية الطبيعية، وتعاني من صعوبة في نمذجة السياق البصري العالمي، مما يؤدي إلى أداء غير مرضٍ في التجزئة. لمعالجة هذه المشكلات، نقترح شبكة انتباه موجهة غير متماثلة عبر المدخلات اللغوية والبصرية لتجميع التجزئة الفيلمية للشخصية والفعل بناءً على استفسار لغوي طبيعي. وبشكل محدد، نُقدِّم شبكة انتباه موجهة غير متماثلة تتألف من انتباه لغوي مُوجَّه بالبصريات لتقليل التباين اللغوي في الاستفسار المُدخل، وانتباه بصري مُوجَّه باللغة لدمج السياق البصري العالمي المرتبط بالاستفسار في آنٍ واحد. علاوةً على ذلك، نستخدم خطة دمج متعددة الدقة، ودالة خسارة موزونة للبكسلات المقدمة والخلفية، لتحقيق تحسين إضافي في الأداء. أظهرت التجارب الواسعة على مجموعتي بيانات Actor-Action Sentences وJ-HMDB Sentences أن النهج المقترح يتفوق بشكل ملحوظ على الطرق الرائدة في مجالها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكة انتباه موجهة متقاطعة غير متماثلة لتقسيم الفيديو الخاص بالشخصية والعملية من استعلام لغوي طبيعي | مستندات | HyperAI