HyperAIHyperAI

Command Palette

Search for a command to run...

جسر الفجوة: إطار موحد لفهم الفيديو للبحث عن اللحظات واكتشاف النقاط المهمة

Xiao Yicheng ; Luo Zhuoyan ; Liu Yong ; Ma Yue ; Bian Hengwei ; Ji Yatai ; Yang Yujiu ; Li Xiu

الملخص

استعادة لحظات الفيديو (MR) وكشف النقاط البارزة (HD) قد جذبت اهتمامًا كبيرًا بسبب الطلب المتزايد على تحليل الفيديو. تتعامل النهج الحديثة مع MR وHD كمشكلات تأسيس فيديو متشابهة وتتناولهما معًا باستخدام هندسة قائمة على المتحولات (transformer-based architecture). ومع ذلك، نلاحظ أن التركيز في MR وHD يختلف، حيث يتطلب الأول إدراك العلاقات المحلية والثاني أولوية فهم السياقات العالمية. نتيجة لذلك، فإن عدم وجود تصميم خاص بالمهمة سيؤدي حتماً إلى حدود في ربط الخصائص الذاتية للمهمتين. لمعالجة هذه المشكلة، نقترح إطار عمل موحد لفهم الفيديو (UVCOM) للجسر بين الفجوة وحل MR وHD بشكل مشترك وبفعالية. من خلال أداء التكامل التدريجي داخل الأصناف وعبر الأصناف عبر متعدد الحبيبات (multi-granularity)، يحقق UVCOM فهمًا شاملًا عند معالجة الفيديو. علاوة على ذلك، نقدم تعلم التباين متعدد الجوانب لتعزيز نمذجة العلاقات المحلية وتراكم المعرفة العالمية عبر مساحة متعددة الوسائط محاذاة جيداً. تظهر التجارب الواسعة على مجموعات بيانات QVHighlights، Charades-STA، TACoS ، YouTube Highlights وTVSum فعالية UVCOM ومنطقها، حيث يتفوق على أفضل الأساليب الحالية بهامش كبير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp