HyperAIHyperAI
منذ 2 أشهر

جسر الفجوة: إطار موحد لفهم الفيديو للبحث عن اللحظات واكتشاف النقاط المهمة

Xiao, Yicheng ; Luo, Zhuoyan ; Liu, Yong ; Ma, Yue ; Bian, Hengwei ; Ji, Yatai ; Yang, Yujiu ; Li, Xiu
جسر الفجوة: إطار موحد لفهم الفيديو للبحث عن اللحظات واكتشاف النقاط المهمة
الملخص

استعادة لحظات الفيديو (MR) وكشف النقاط البارزة (HD) قد جذبت اهتمامًا كبيرًا بسبب الطلب المتزايد على تحليل الفيديو. تتعامل النهج الحديثة مع MR وHD كمشكلات تأسيس فيديو متشابهة وتتناولهما معًا باستخدام هندسة قائمة على المتحولات (transformer-based architecture). ومع ذلك، نلاحظ أن التركيز في MR وHD يختلف، حيث يتطلب الأول إدراك العلاقات المحلية والثاني أولوية فهم السياقات العالمية. نتيجة لذلك، فإن عدم وجود تصميم خاص بالمهمة سيؤدي حتماً إلى حدود في ربط الخصائص الذاتية للمهمتين. لمعالجة هذه المشكلة، نقترح إطار عمل موحد لفهم الفيديو (UVCOM) للجسر بين الفجوة وحل MR وHD بشكل مشترك وبفعالية. من خلال أداء التكامل التدريجي داخل الأصناف وعبر الأصناف عبر متعدد الحبيبات (multi-granularity)، يحقق UVCOM فهمًا شاملًا عند معالجة الفيديو. علاوة على ذلك، نقدم تعلم التباين متعدد الجوانب لتعزيز نمذجة العلاقات المحلية وتراكم المعرفة العالمية عبر مساحة متعددة الوسائط محاذاة جيداً. تظهر التجارب الواسعة على مجموعات بيانات QVHighlights، Charades-STA، TACoS ، YouTube Highlights وTVSum فعالية UVCOM ومنطقها، حيث يتفوق على أفضل الأساليب الحالية بهامش كبير.

جسر الفجوة: إطار موحد لفهم الفيديو للبحث عن اللحظات واكتشاف النقاط المهمة | أحدث الأوراق البحثية | HyperAI