لا يمكن تحضير أومليت دون كسر بعض البيض: توقع إجراءات واقعية باستخدام نماذج الفيديو واللغة الكبيرة

نُقدِّم نموذج PlausiVL، وهو نموذج فيديو-لغة كبير مُصمَّم للتنبؤ بالتسلسلات الفعلية التي تكون معقولة في العالم الحقيقي. وعلى الرغم من الجهود الكبيرة المبذولة في مجال التنبؤ بالإجراءات المستقبلية، فإن النماذج السابقة لم تأخذ بعين الاعتبار جانب المصداقية في تسلسل الأفعال. لمعالجة هذه القيود، نستكشف في عملنا القدرة الإبداعية لنموذج فيديو-لغة كبير، ونطوّر فهمنا للمصداقية في تسلسل الأفعال من خلال تقديم دالتين هدف، الأولى هي خسارة تعلُّم تسلسلات أفعال معقولة تعتمد على السيناريوهات المُعاكسة (counterfactual)، والثانية هي خسارة تكرار الإجراءات على مدى زمني طويل. نستخدم قيودًا منطقية زمنية، بالإضافة إلى قيود منطقية على أزواج الفعل-الاسم (verb-noun)، لإنشاء تسلسلات أفعال غير معقولة أو مُعاكسة، ثم نستخدم هذه التسلسلات لتدريب النموذج باستخدام خسارة تعلُّم التسلسلات المعقولة. تساعد هذه الخسارة النموذج على التمييز بين التسلسلات المعقولة وغير المعقولة، كما تساعد النموذج على تعلُّم المؤشرات الزمنية الضمنية التي تُعدّ حاسمة في مهمة التنبؤ بالإجراءات. أما خسارة تكرار الإجراءات على مدى زمني طويل، فهي تفرض عقوبة أكبر على الإجراءات التي تميل إلى التكرار على فترة زمنية أطول. وبفضل هذه العقوبة، يتمكّن النموذج من إنتاج تسلسلات إجرائية متنوعة ومعقولة. وقد قُمنا بتقييم نهجنا على مجموعتي بيانات كبيرتين، هما Ego4D وEPIC-Kitchens-100، وأظهرنا تحسّنًا في مهمة التنبؤ بالإجراءات.