HyperAIHyperAI

Command Palette

Search for a command to run...

vid-TLDR: التدريب الحر لدمج الرموز لـ Transformer الفيديو الخفيف الوزن

Joonmyung Choi Sanghyeok Lee Jaewon Chu Minhyuk Choi Hyunwoo J. Kim

الملخص

لقد أصبحت نماذج التحويل الفيديو (Video Transformers) الحل السائد لمهام الفيديو المختلفة بفضل قدرتها التعبيرية المتفوقة ومرونتها. ومع ذلك، تعاني هذه النماذج من تكاليف حسابية ثقيلة تنتج عن العدد الكبير جدًا للمؤشرات (tokens) عبر جميع إطارات الفيديو، مما يشكل العائق الرئيسي أمام تدريب النموذج. بالإضافة إلى ذلك، فإن الأجزاء غير ذات الصلة بالمحتوى الرئيسي، مثل الخلفيات، تقلل من أداء النموذج في العمليات العامة. لحل هذه المشكلات، نقترح استخدام دمج المؤشرات بدون تدريب إضافي للنموذج الخفيف الوزن من نماذج التحويل الفيديو (vid-TLDR)، والذي يهدف إلى تعزيز كفاءة نماذج التحويل الفيديو من خلال دمج مؤشرات الخلفية دون الحاجة إلى تدريب إضافي. بالنسبة لـ vid-TLDR، نقدم طريقة جديدة لتحديد المناطق البارزة في الفيديوهات باستخدام خريطة الانتباه (attention map) فقط. علاوة على ذلك، نقدم استراتيجية دمج المؤشرات واعية بالبارزة (saliency-aware) من خلال إسقاط مؤشرات الخلفية وتعزيز درجات الكائنات. أظهرت تجاربنا أن vid-TLDR يخفف بشكل كبير من التعقيد الحسابي لنماذج التحويل الفيديو مع تحقيق أداء تنافسي مقارنة بالنموذج الأساسي دون استخدام vid-TLDR. يمكن الحصول على الكود من الرابط: https://github.com/mlvlab/vid-TLDR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp