HyperAIHyperAI

Command Palette

Search for a command to run...

UMT: تحويلات متعددة الوسائط موحدة للبحث المشترك عن لحظات الفيديو وكشف اللحظات البارزة

Ye Liu Siyuan Li Yang Wu Chang Wen Chen Ying Shan Xiaohu Qie

الملخص

عندما يتعلق الأمر بالعثور على لحظات ذات صلة ومشاهد مميزة في مقاطع الفيديو استجابةً لاستفسارات باللغة الطبيعية، فإن هذا يُعدّ حاجة طبيعية وذات قيمة كبيرة في العصر الحالي الذي يشهد تفشيًا هائلاً لمحتوى الفيديو. ومع ذلك، يُعدّ إجراء الاسترجاع المتزامن للحظات والكشف عن اللحظات البارزة موضوعًا بحثيًا ناشئًا، رغم أن المشكلات الفرعية المتعلقة به والمهام المرتبطة به قد تم دراستها بالفعل لفترة من الزمن. في هذا البحث، نقدّم أول إطار موحد، يُسمّى "المحولات متعددة الوسائط الموحّدة" (UMT)، قادر على تحقيق هذا التحسين المتزامن، مع إمكانية تبسيطه بسهولة لحل المشكلات الفردية. وفقًا لمعرفتنا، يُعدّ هذا أول نموذج يدمج التعلم متعدد الوسائط (المرئي-الصوتي) سواءً لتحسين متكامل أو لمهام الاسترجاع الفردية للحظات، ويتعامل مع استرجاع اللحظات كمشكلة كشف النقاط المميزة باستخدام مُولّد استفسار جديد وملغّم استفسار مُحسَّن. وقد أظهرت المقارنات الواسعة مع الأساليب الحالية، بالإضافة إلى دراسات التحليل التجريبي على مجموعات بيانات QVHighlights وCharades-STA وYouTube Highlights وTVSum، الفعالية والتفوّق والمرونة العالية للنهج المقترح في ظل ظروف مختلفة. يمكن الوصول إلى كود المصدر والنماذج المُدرّبة مسبقًا من خلال الرابط التالي: https://github.com/TencentARC/UMT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
UMT: تحويلات متعددة الوسائط موحدة للبحث المشترك عن لحظات الفيديو وكشف اللحظات البارزة | مستندات | HyperAI