HyperAIHyperAI

Command Palette

Search for a command to run...

SEM-POS: صياغة عناوين فيديو صحيحة نحوياً ودلاليًا

Asmar Nadeem Adrian Hilton Robert Dawes Graham Thomas Armin Mustafa

الملخص

إن إنشاء عناوين متناسقة نحويًا ودلاليًا في مهام وصف الفيديو يُعدّ مهمة صعبة. إذ غالبًا ما تُولّد العناوين من الأساليب الحالية كلمة بكلمة، دون أن تتماشى مع الهيكل النحوي، أو تُفقِد معلومات جوهرية من الفيديو المدخل. ولحل هذه المشكلات، نقدّم شبكة تكامل عالمية-محلية مبتكرة، تضمّ وحدة تكامل عالمية-محلية (GLFB) تقوم بترميز ودمج الميزات من مكونات الأدوار النحوية المختلفة (POS) مع الميزات البصرية-المكانية. نستخدم تركيبات مبتكرة من مكونات الأدوار النحوية المختلفة — "حَدّاد + فاعل"، "فعل مساعد"، "فعل"، و"حَدّاد + مفعول" — لتقديم إشراف على كتل الأدوار النحوية المقابلة: Det + Subject، Aux Verb، Verb، وDet + Object على التوالي. تساعد شبكة التكامل العالمية-المحلية المبتكرة مع كتل الأدوار النحوية في محاذاة الميزات البصرية مع الوصف اللغوي، مما يُنتج عناوين متناسقة نحويًا ودلاليًا. أظهرت التجارب الكمية والكيفية الواسعة على مجموعتي بيانات المعيار MSVD وMSRVTT أن النهج المقترح يُنتج عناوين أكثر دقة نحويًا ودلاليًا مقارنة بالأساليب الحالية، ويحقق حالة جديدة من التميز في الأداء. كما أظهرت تجارب التحليل (Ablations) على كتل الأدوار النحوية ووحدة GLFB التأثير الكبير المُحقَّق من المساهمات المقدمة على الأداء العام للنموذج.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp