HyperAIHyperAI
منذ 7 أيام

SEM-POS: صياغة عناوين فيديو صحيحة نحوياً ودلاليًا

Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa
SEM-POS: صياغة عناوين فيديو صحيحة نحوياً ودلاليًا
الملخص

إن إنشاء عناوين متناسقة نحويًا ودلاليًا في مهام وصف الفيديو يُعدّ مهمة صعبة. إذ غالبًا ما تُولّد العناوين من الأساليب الحالية كلمة بكلمة، دون أن تتماشى مع الهيكل النحوي، أو تُفقِد معلومات جوهرية من الفيديو المدخل. ولحل هذه المشكلات، نقدّم شبكة تكامل عالمية-محلية مبتكرة، تضمّ وحدة تكامل عالمية-محلية (GLFB) تقوم بترميز ودمج الميزات من مكونات الأدوار النحوية المختلفة (POS) مع الميزات البصرية-المكانية. نستخدم تركيبات مبتكرة من مكونات الأدوار النحوية المختلفة — "حَدّاد + فاعل"، "فعل مساعد"، "فعل"، و"حَدّاد + مفعول" — لتقديم إشراف على كتل الأدوار النحوية المقابلة: Det + Subject، Aux Verb، Verb، وDet + Object على التوالي. تساعد شبكة التكامل العالمية-المحلية المبتكرة مع كتل الأدوار النحوية في محاذاة الميزات البصرية مع الوصف اللغوي، مما يُنتج عناوين متناسقة نحويًا ودلاليًا. أظهرت التجارب الكمية والكيفية الواسعة على مجموعتي بيانات المعيار MSVD وMSRVTT أن النهج المقترح يُنتج عناوين أكثر دقة نحويًا ودلاليًا مقارنة بالأساليب الحالية، ويحقق حالة جديدة من التميز في الأداء. كما أظهرت تجارب التحليل (Ablations) على كتل الأدوار النحوية ووحدة GLFB التأثير الكبير المُحقَّق من المساهمات المقدمة على الأداء العام للنموذج.