HyperAIHyperAI
منذ 2 أشهر

LARP: تقسيم الفيديوهات إلى عناصر باستخدام مولد ذاتي متقدم تم تعلمه

Wang, Hanyu ; Suri, Saksham ; Ren, Yixuan ; Chen, Hao ; Shrivastava, Abhinav
LARP: تقسيم الفيديوهات إلى عناصر باستخدام مولد ذاتي متقدم تم تعلمه
الملخص

نقدم LARP، وهو مُكوِّن فيديو جديد مصمم للتغلب على القيود الموجودة في طرق تجزئة الفيديو الحالية لنموذج التوليد الذاتي الانحداري (AR). على عكس المُكوِّنات التقليدية التي تقوم بتشفير الأجزاء البصرية المحلية مباشرة إلى رموز متقطعة، يدخل LARP نظامًا شاملًا للتجزئة يجمع المعلومات من المحتوى البصري باستخدام مجموعة من الاستعلامات الشمولية المُتَعَلِّمة. هذا التصميم يسمح لـ LARP بالتقاط تمثيلات أكثر شمولية ومعنوية، بدلاً من الاقتصار على المعلومات على مستوى الجزء المحلي. بالإضافة إلى ذلك، يقدم مرونة من خلال دعم عدد تعسفي من الرموز المتقطعة، مما يتيح التجزئة المرنة والفعالة وفقًا لمتطلبات المهمة المحددة. لتوافق فضاء الرموز المتقطعة مع مهمات التوليد الذاتي الانحداري اللاحقة، يدمج LARP نموذج تحويل AR خفيف كنموذج سابق أثناء التدريب يقوم بتوقع الرمز التالي في فضاءه الكامن المتقطع. عن طريق دمج النموذج السابق أثناء التدريب، تتعلم LARP فضاءًا كامنًا ليس فقط مُحسَّنًا لإعادة بناء الفيديو ولكن أيضًا مرتب بطريقة تكون أكثر ملاءمة للتوليد الذاتي الانحداري. علاوة على ذلك، يحدد هذا العملية ترتيبًا متسلسلًا للرموز المتقطعة، مما يدفعها تدريجيًا نحو تكوين مثالي أثناء التدريب، مما يضمن جودة أعلى وأكثر دقة في التوليد الذاتي الانحداري وقت الاستدلال. تظهر التجارب الشاملة أداءً قويًا لـ LARP، حيث حقق أفضل مؤشر FVD على مقاييس توليد الفيديو المشروطة بالتصنيف UCF101. يعزز LARP توافق نماذج AR مع الفيديوهات ويفتح المجال لإنشاء نماذج لغوية كبيرة متعددة الوسائط عالية الدقة (MLLMs) بشكل موحد.

LARP: تقسيم الفيديوهات إلى عناصر باستخدام مولد ذاتي متقدم تم تعلمه | أحدث الأوراق البحثية | HyperAI