تطابق، توسيع و تحسين: التعديل غير المشرف للاعتراف بالأفعال دون الحاجة إلى تدريب مسبق باستخدام المعرفة اللغوية

أظهرت نماذج الرؤية واللغة (VL) على نطاق واسع نجاحًا كبيرًا في مواءمة التمثيلات بين الوسائط البصرية والنصية. وهذا يمكّن من تحقيق تقدم ملحوظ في التعرف التلقائي، وإنشاء الصور وتحريرها، والعديد من المهام الأخرى المثيرة. ومع ذلك، فإن نماذج VL تميل إلى التركيز بشكل كبير على الأشياء بينما تولي اهتمامًا أقل بكثير للأفعال، وتتطلب ضبطًا إضافيًا على بيانات الفيديو للحصول على أفضل أداء في التعرف التلقائي على الأفعال. بينما اعتمدت الدراسات السابقة على بيانات كبيرة ومُشَرَّحة بالكامل، نقترح في هذه الدراسة نهجًا غير مشرف عليه. قمنا بتكيف نموذج VL للتعرف التلقائي والأقل إشرافًا على الأفعال باستخدام مجموعة من مقاطع الفيديو غير المشروحة ومعجم أفعال غير مرتبط. بناءً على هذا، استخدمنا النماذج اللغوية الكبيرة ونماذج VL لبناء حقيبة نصية لكل فيديو غير مشروح عبر المطابقة، وتوسيع النص، وإضافة التعليقات. استخدمنا هذه الحقائب في إطار تعلم متعدد الحالات لتكيف جذر صورة-نص إلى بيانات الفيديو. رغم أن النماذج النهائية تم ضبطها على بيانات الفيديو غير المشروحة، إلا أنها أظهرت قابلية عالية للنقل إلى العديد من المهام الثانوية الغير مشروحة التي لم يتم رؤيتها سابقًا، مما يحسن أداء النموذج الأساسي VL بنسبة تصل إلى 14٪، وحتى يتفوق على خطوط الأساس الكاملة الإشراف في كلٍ من التعرف التلقائي وأقل إشرافًا على الفيديو. سيتم إطلاق الكود لاحقًا في \url{https://github.com/wlin-at/MAXI}.