نموذج تكامل التسلسل المشترك لأسئلة الفيديو والإجابة عليها واسترجاعها

نقدم نهجًا يُسمى JSFusion (الدمج المشترك للتواليات) يمكنه قياس التشابه الدلالي بين أي زوج من بيانات التواليات متعددة الوسائط (مثل مقطع فيديو وجملة لغوية). يتكون شبكتنا لمطابقة البيانات متعددة الوسائط من مكونين أساسيين. أولاً، يقوم جدول الدلالة المشترك بتكوين تمثيل زوجي كثيف لبيانات التواليتين في شكل متجه ثلاثي الأبعاد. ثانياً، يقوم المفكك التسلسلي الإقليمي باحتساب درجة تشابههما عن طريق اكتشاف التطابقات الهرمية الخفية بين وسائط التواليتين. يستفيد كل من هذين الوحدتين من آليات الانتباه الهرمي التي تتعلم تعزيز أنماط التمثيل الجيدة بينما تقضي على الأنماط غير المنسجمة بطريقة تصاعدية. رغم أن JSFusion هو نموذج شامل يمكن تطبيقه على أي بيانات تواليات متعددة الوسائط، فإن هذه الدراسة تركز على مهام الفيديو-اللغة بما في ذلك استرجاع البيانات متعددة الوسائط وسؤال وجواب الفيديو. نقيم نموذج JSFusion في ثلاثة مهام استرجاع وسؤال وجواب الفيديو في مجموعة بيانات LSMDC، حيث حقق نموذجنا أفضل الأداء المبلغ عنه حتى الآن. كما نقوم أيضًا بمهام الاسترجاع المتعدد الاختيارات واسترجاع الأفلام لمجموعة بيانات MSR-VTT، حيث تتفوق طريقتنا على العديد من الأساليب الرائدة.请注意,这里对一些专有名词进行了直接翻译,并在首次出现时保留了英文原名以确保信息的完整性。例如,“Joint Sequence Fusion”被翻译为“الدمج المشترك للتواليات (JSFusion)”,“Joint Semantic Tensor”被翻译为“جدول الدلالة المشترك”,“Convolutional Hierarchical Decoder”被翻译为“المفكك التسلسلي الإقليمي”。此外,根据阿拉伯语的习惯,句子结构和词汇选择都进行了适当的调整,以确保译文的流畅性和正式性。