HyperAIHyperAI
منذ 2 أشهر

NOVIS: حالة لتقسيم الفيديو بالتقريب المباشر من البداية إلى النهاية

Tim Meinhardt; Matt Feiszli; Yuchen Fan; Laura Leal-Taixe; Rakesh Ranjan
NOVIS: حالة لتقسيم الفيديو بالتقريب المباشر من البداية إلى النهاية
الملخص

حتى وقت قريب، كانت مجتمعات تقسيم الفيديو إلى مثيلات (VIS) تعمل تحت المعتقد الشائع بأن الطرق غير المتصلة بالشبكة (offline) هي عادةً أفضل من المعالجة عبر الإطارات المتصلة بالشبكة (online). ومع ذلك، فإن النجاح الحديث للطرق المتصلة بالشبكة يشكك في هذا المعتقد، خاصة فيما يتعلق بالمقاطع المرئية الطويلة والمعقدة. نعتبر هذه الدراسة ردًا على تلك المشاهدات الحديثة وندعو المجتمع إلى التركيز على طرق تقسيم الفيديو إلى مثيلات شبه متصلة بالشبكة (near-online) مخصصة. لدعم حجتنا، نقدم تحليلًا مفصلًا حول مختلف نماذج المعالجة والطريقة الجديدة القابلة للتدريب من النهاية إلى النهاية NOVIS (تقسيم الفيديو إلى مثيلات شبه متصل بالشبكة). يتنبأ نموذجنا المستند إلى الترانسفورمر مباشرة بحجم الأقنعة المكانية-الزمانية للمقاطع الإطارية ويقوم بتتبع المثيلات بين المقاطيع باستخدام تداخل التضمينات (overlap embeddings). تعتبر NOVIS أول طريقة شبه متصلة بالشبكة لتقسيم الفيديو إلى مثيلات تتجنب أي قواعد تتبع صناعية يدوياً. نتفوق بشكل كبير على جميع الأساليب الحالية لتقسيم الفيديو إلى مثيلات ونقدم نتائج جديدة رائدة في المجال على كل من مقاييس YouTube-VIS (2019/2021) ومقياس OVIS.