HyperAIHyperAI
منذ 2 أشهر

vid-TLDR: التدريب الحر لدمج الرموز لـ Transformer الفيديو الخفيف الوزن

Joonmyung Choi; Sanghyeok Lee; Jaewon Chu; Minhyuk Choi; Hyunwoo J. Kim
vid-TLDR: التدريب الحر لدمج الرموز لـ Transformer الفيديو الخفيف الوزن
الملخص

لقد أصبحت نماذج التحويل الفيديو (Video Transformers) الحل السائد لمهام الفيديو المختلفة بفضل قدرتها التعبيرية المتفوقة ومرونتها. ومع ذلك، تعاني هذه النماذج من تكاليف حسابية ثقيلة تنتج عن العدد الكبير جدًا للمؤشرات (tokens) عبر جميع إطارات الفيديو، مما يشكل العائق الرئيسي أمام تدريب النموذج. بالإضافة إلى ذلك، فإن الأجزاء غير ذات الصلة بالمحتوى الرئيسي، مثل الخلفيات، تقلل من أداء النموذج في العمليات العامة. لحل هذه المشكلات، نقترح استخدام دمج المؤشرات بدون تدريب إضافي للنموذج الخفيف الوزن من نماذج التحويل الفيديو (vid-TLDR)، والذي يهدف إلى تعزيز كفاءة نماذج التحويل الفيديو من خلال دمج مؤشرات الخلفية دون الحاجة إلى تدريب إضافي. بالنسبة لـ vid-TLDR، نقدم طريقة جديدة لتحديد المناطق البارزة في الفيديوهات باستخدام خريطة الانتباه (attention map) فقط. علاوة على ذلك، نقدم استراتيجية دمج المؤشرات واعية بالبارزة (saliency-aware) من خلال إسقاط مؤشرات الخلفية وتعزيز درجات الكائنات. أظهرت تجاربنا أن vid-TLDR يخفف بشكل كبير من التعقيد الحسابي لنماذج التحويل الفيديو مع تحقيق أداء تنافسي مقارنة بالنموذج الأساسي دون استخدام vid-TLDR. يمكن الحصول على الكود من الرابط: https://github.com/mlvlab/vid-TLDR.