HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 3 أيام

إجابة بالفيديو: التنبؤ بإنشاء الحدث الفيديو التالي باستخدام Joint-GRPO

Junhao Cheng Liang Hou Xin Tao Jing Liao

إجابة بالفيديو: التنبؤ بإنشاء الحدث الفيديو التالي باستخدام Joint-GRPO

الملخص

بينما أصبحت نماذج اللغة ذات تأثير كبير في العديد من التطبيقات الواقعية، تظل توليدات الفيديو مقتصرة إلى حد كبير على مجال الترفيه. مُحفَّزين بقدرة الفيديو المتأصلة على عرض معلومات العالم المادي التي يصعب نقلها باللغة وحدها (مثلاً، تخيّل تعليم شخص ما كيفية ربط ربطة العنق باستخدام نصوص فقط)، نُحدِّد فرصة غير مستغلة بالكامل لتوسيع الفيديو ليصبح نمطًا جديدًا للإجابة في مسألة التنبؤ بالحدث التالي (Next-Event Prediction - NEP)، والتي تم صياغتها رسميًا كـ "التنبؤ بالحدث التالي عبر الفيديو" (Video-Next-Event Prediction - VNEP). في حين أن المهمة التقليدية لـ NEP تتلقى فيديوًا مع سؤال إجرائي أو تنبؤي كمدخل، وتُقدّر الحدث التالي بالنص، فإن VNEP تتطلب استجابات فيديو ديناميكية. هذا التحوّل من "السرد" إلى "العرض" يُحرّر إجابات أكثر سهولة وتكيفًا في التعلم الإجرائي والاستكشاف الإبداعي. ومع ذلك، تبقى هذه المهمة صعبة بالنسبة للنماذج الحالية، نظرًا لاحتياجها إلى فهم للإدخال متعدد الوسائط، والاستدلال المشروط بالتعليمات، وتوليد فيديو يتمتع بالاتساق البصري والمعنوي. ولحل هذه المشكلة، نقدّم نموذج VANS، الذي يستخدم التعلم بالتعزيز (reinforcement learning) لمحاذاة نموذج متعدد الوسائط للرؤية واللغة (Vision-Language Model - VLM) مع نموذج توليد الفيديو بالانتشار (Video Diffusion Model - VDM) في سياق VNEP. تكمن النواة الأساسية لـ VANS في خوارزميتنا المقترحة Joint-GRPO، التي تنسق بين VLM وVDM ليعملان كوحدة متكاملة. وتُحسّن هذه الخوارزمية VLM لإنتاج عناوين (captions) دقيقة وسهلة التصوير، بينما توجّه VDM لتوليد فيديوهات مطابقة لهذه العناوين والسياق البصري المدخل، وذلك بفضل مكافأة مشتركة تُطبّق على إخراج كل من النموذجين. ولتمكين هذا التعلّم، صممنا مجموعة بيانات مخصصة تُسمى VANS-Data-100K، لدعم مهمة VNEP. أظهرت التجارب على معايير إجرائية وتنبؤية أن VANS تحقق أداءً متفوّقًا على الحد الأقصى (state-of-the-art) في كلا المهمتين: التنبؤ بالحدث في الفيديو وتمثيله بصريًا. وتم إتاحة الشيفرة المصدرية على الرابط: https://github.com/KlingTeam/VANS.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إجابة بالفيديو: التنبؤ بإنشاء الحدث الفيديو التالي باستخدام Joint-GRPO | الأوراق البحثية | HyperAI