HyperAIHyperAI

Command Palette

Search for a command to run...

التفاعل المكاني-الزمني المُتَّصل باللغة لتقسيم كائن الفيديو المرجعي

Zihan Ding Tianrui Hui Junshi Huang Xiaoming Wei Jizhong Han Si Liu

الملخص

يهدف التمييز المرئي للكائنات المرجعية إلى التنبؤ بعلامات الكائنات ذات الصلة بعبارات لغوية طبيعية في مقاطع الفيديو. تعتمد الطرق السابقة إما على شبكات 3D ConvNets أو تدمج شبكات 2D ConvNets إضافية كمُشفرات لاستخراج ميزات مختلطة فضائية-زمنية. ومع ذلك، تعاني هذه الطرق من تداخل فضائي خاطئ أو تشويشات غير صحيحة ناتجة عن التفاعل الفضائي-الزمني المتأخر والضمني الذي يحدث في مرحلة التفكيك. ولحل هذه القيود، نقترح وحدة نقل مزدوجة مُرتبطة باللغة (LBDT) التي تستخدم اللغة كجسر وسيط لتنفيذ تفاعل فضائي-زمني صريح وقابل للتكيف في مرحلة التشفير مبكرًا. وبشكل محدد، يتم تنفيذ انتباه بين الوسائط عبر القنوات بين المشفر الزمني، والكلمات المرجعية، والمشفر المكاني لجمع ونقل معلومات الحركة والملامح ذات الصلة باللغة. علاوةً على ذلك، نقترح أيضًا وحدة تنشيط قنوات ثنائية (BCA) في مرحلة التفكيك لتصفية الضوضاء بشكل إضافي وتمييز الميزات المتسقة فضائيًا-زمنيًا من خلال تنشيط القنوات. تُظهر التجارب الواسعة أن طريقتنا تحقق أداءً جديدًا على مستوى الحد الأقصى في أربع معايير شهيرة، مع تحقيق مكاسب مطلقة في دقة التقييم (AP) بنسبة 6.8% و6.9% على معايير A2D Sentences وJ-HMDB Sentences على التوالي، مع استهلاك ما يقارب 7 أضعاف أقل من الحمل الحسابي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp