تدريب نموذج فيديو كبير على جهاز واحد خلال يوم واحد

الفيديوهات كبيرة وتعقيد معالجتها مسبقًا، وتدريب النماذج عليها بطيء جدًا. يتم تدريب النماذج الكبيرة المتطورة حاليًا على الفيديو باستخدام مجموعات من 32 بطاقة رسومية أو أكثر لمدة عدة أيام. نتيجة لذلك، سلّمت الأوساط الأكاديمية إلى الصناعة مسؤولية تدريب النماذج الكبيرة للفيديوهات. في هذه الورقة، نُظهر كيف يمكن تدريب نموذج فيديو متطور على مستوى عالٍ على جهاز واحد مزود بثماني بطاقات رسومية من الفئة المستهلكة خلال يوم واحد. وتحديدًا، حددنا ثلاث عوائق رئيسية: إدخال/إخراج البيانات (IO)، ووحدة المعالجة المركزية (CPU)، والحساب على وحدة المعالجة الرسومية (GPU)، وقمنا بتحسين كل منها. النتيجة هي خط أنابيب تدريب فيديو فعالة للغاية. بالنسبة لنماذج مماثلة، تحقق خط أنابيبنا دقة أعلى باستخدام فقط $\frac{1}{8}$ من الحساب مقارنة بالعمل السابق. يمكن الاطلاع على الكود عبر الرابط: https://github.com/zhaoyue-zephyrus/AVION.