HyperAIHyperAI
منذ 8 أيام

VLTinT: نموذج تحويلي بصري-لغوي يعتمد على التحويل في التحويل لوصف فقرات الفيديو بشكل متماسك

Kashu Yamazaki, Khoa Vo, Sang Truong, Bhiksha Raj, Ngan Le
VLTinT: نموذج تحويلي بصري-لغوي يعتمد على التحويل في التحويل لوصف فقرات الفيديو بشكل متماسك
الملخص

يهدف التوصيف النصي للفيديو إلى إنتاج وصف متعدد الجمل لفيديو غير مُعدّل يحتوي على عدة مواقع زمنية لحدث، من خلال سرد متسلسل ومتماسك. بالاعتماد على عملية الإدراك البشري، حيث يتم فهم المشهد بشكل فعّال من خلال تحليله إلى مكونات بصرية (مثل البشر، الحيوانات) ومكونات غير بصرية (مثل الأفعال، العلاقات) تحت تأثير متبادل بين الرؤية واللغة، نقترح أولًا ميزة بصرية-لغوية (VL). في الميزة البصرية-اللغوية المقترحة، يتم نمذجة المشهد عبر ثلاث وسائط تشمل: (أ) البيئة البصرية الشاملة؛ (ب) العوامل البصرية الرئيسية المحلية؛ (ج) عناصر المشهد اللغوية. ثم نقدّم نموذجًا تلقائي التوليد من نوع Transformer في Transformer (TinT) لالتقاط الترابط المعنى بين المحتوى الداخلي للحدث والخارجي بين الأحداث داخل الفيديو في آنٍ واحد. وأخيرًا، نقدم دالة خسارة تباينية بصرية-لغوية جديدة لضمان توافق الميزات المُستخلصة مع دلالات الوصف النصي. أظهرت التجارب الشاملة والدراسات التحليلية الواسعة على مجموعتي بيانات ActivityNet Captions وYouCookII أن النموذج المقترح، المعروف بـ VLTinT (Transformer في Transformer البصري-اللغوي)، يتفوّق على الطرق المتطورة السابقة من حيث الدقة والتنوع. تم إتاحة الشفرة المصدرية بشكل عام عبر الرابط التالي: https://github.com/UARK-AICV/VLTinT.

VLTinT: نموذج تحويلي بصري-لغوي يعتمد على التحويل في التحويل لوصف فقرات الفيديو بشكل متماسك | أحدث الأوراق البحثية | HyperAI