HyperAIHyperAI

Command Palette

Search for a command to run...

لا يمكن تحضير أومليت دون كسر بعض البيض: توقع إجراءات واقعية باستخدام نماذج الفيديو واللغة الكبيرة

Himangi Mittal Nakul Agarwal Shao-Yuan Lo Kwonjoon Lee

الملخص

نُقدِّم نموذج PlausiVL، وهو نموذج فيديو-لغة كبير مُصمَّم للتنبؤ بالتسلسلات الفعلية التي تكون معقولة في العالم الحقيقي. وعلى الرغم من الجهود الكبيرة المبذولة في مجال التنبؤ بالإجراءات المستقبلية، فإن النماذج السابقة لم تأخذ بعين الاعتبار جانب المصداقية في تسلسل الأفعال. لمعالجة هذه القيود، نستكشف في عملنا القدرة الإبداعية لنموذج فيديو-لغة كبير، ونطوّر فهمنا للمصداقية في تسلسل الأفعال من خلال تقديم دالتين هدف، الأولى هي خسارة تعلُّم تسلسلات أفعال معقولة تعتمد على السيناريوهات المُعاكسة (counterfactual)، والثانية هي خسارة تكرار الإجراءات على مدى زمني طويل. نستخدم قيودًا منطقية زمنية، بالإضافة إلى قيود منطقية على أزواج الفعل-الاسم (verb-noun)، لإنشاء تسلسلات أفعال غير معقولة أو مُعاكسة، ثم نستخدم هذه التسلسلات لتدريب النموذج باستخدام خسارة تعلُّم التسلسلات المعقولة. تساعد هذه الخسارة النموذج على التمييز بين التسلسلات المعقولة وغير المعقولة، كما تساعد النموذج على تعلُّم المؤشرات الزمنية الضمنية التي تُعدّ حاسمة في مهمة التنبؤ بالإجراءات. أما خسارة تكرار الإجراءات على مدى زمني طويل، فهي تفرض عقوبة أكبر على الإجراءات التي تميل إلى التكرار على فترة زمنية أطول. وبفضل هذه العقوبة، يتمكّن النموذج من إنتاج تسلسلات إجرائية متنوعة ومعقولة. وقد قُمنا بتقييم نهجنا على مجموعتي بيانات كبيرتين، هما Ego4D وEPIC-Kitchens-100، وأظهرنا تحسّنًا في مهمة التنبؤ بالإجراءات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
لا يمكن تحضير أومليت دون كسر بعض البيض: توقع إجراءات واقعية باستخدام نماذج الفيديو واللغة الكبيرة | مستندات | HyperAI