UMT: تحويلات متعددة الوسائط موحدة للبحث المشترك عن لحظات الفيديو وكشف اللحظات البارزة

عندما يتعلق الأمر بالعثور على لحظات ذات صلة ومشاهد مميزة في مقاطع الفيديو استجابةً لاستفسارات باللغة الطبيعية، فإن هذا يُعدّ حاجة طبيعية وذات قيمة كبيرة في العصر الحالي الذي يشهد تفشيًا هائلاً لمحتوى الفيديو. ومع ذلك، يُعدّ إجراء الاسترجاع المتزامن للحظات والكشف عن اللحظات البارزة موضوعًا بحثيًا ناشئًا، رغم أن المشكلات الفرعية المتعلقة به والمهام المرتبطة به قد تم دراستها بالفعل لفترة من الزمن. في هذا البحث، نقدّم أول إطار موحد، يُسمّى "المحولات متعددة الوسائط الموحّدة" (UMT)، قادر على تحقيق هذا التحسين المتزامن، مع إمكانية تبسيطه بسهولة لحل المشكلات الفردية. وفقًا لمعرفتنا، يُعدّ هذا أول نموذج يدمج التعلم متعدد الوسائط (المرئي-الصوتي) سواءً لتحسين متكامل أو لمهام الاسترجاع الفردية للحظات، ويتعامل مع استرجاع اللحظات كمشكلة كشف النقاط المميزة باستخدام مُولّد استفسار جديد وملغّم استفسار مُحسَّن. وقد أظهرت المقارنات الواسعة مع الأساليب الحالية، بالإضافة إلى دراسات التحليل التجريبي على مجموعات بيانات QVHighlights وCharades-STA وYouTube Highlights وTVSum، الفعالية والتفوّق والمرونة العالية للنهج المقترح في ظل ظروف مختلفة. يمكن الوصول إلى كود المصدر والنماذج المُدرّبة مسبقًا من خلال الرابط التالي: https://github.com/TencentARC/UMT.