HyperAIHyperAI

Command Palette

Search for a command to run...

تطابق، توسيع و تحسين: التعديل غير المشرف للاعتراف بالأفعال دون الحاجة إلى تدريب مسبق باستخدام المعرفة اللغوية

Wei Lin†1 Leonid Karlinsky2 Nina Shvetsova3 Horst Possegger1 Mateusz Kozinski1 Rameswar Panda2 Rogerio Feris2 Hilde Kuehne2,3 Horst Bischof1

الملخص

أظهرت نماذج الرؤية واللغة (VL) على نطاق واسع نجاحًا كبيرًا في مواءمة التمثيلات بين الوسائط البصرية والنصية. وهذا يمكّن من تحقيق تقدم ملحوظ في التعرف التلقائي، وإنشاء الصور وتحريرها، والعديد من المهام الأخرى المثيرة. ومع ذلك، فإن نماذج VL تميل إلى التركيز بشكل كبير على الأشياء بينما تولي اهتمامًا أقل بكثير للأفعال، وتتطلب ضبطًا إضافيًا على بيانات الفيديو للحصول على أفضل أداء في التعرف التلقائي على الأفعال. بينما اعتمدت الدراسات السابقة على بيانات كبيرة ومُشَرَّحة بالكامل، نقترح في هذه الدراسة نهجًا غير مشرف عليه. قمنا بتكيف نموذج VL للتعرف التلقائي والأقل إشرافًا على الأفعال باستخدام مجموعة من مقاطع الفيديو غير المشروحة ومعجم أفعال غير مرتبط. بناءً على هذا، استخدمنا النماذج اللغوية الكبيرة ونماذج VL لبناء حقيبة نصية لكل فيديو غير مشروح عبر المطابقة، وتوسيع النص، وإضافة التعليقات. استخدمنا هذه الحقائب في إطار تعلم متعدد الحالات لتكيف جذر صورة-نص إلى بيانات الفيديو. رغم أن النماذج النهائية تم ضبطها على بيانات الفيديو غير المشروحة، إلا أنها أظهرت قابلية عالية للنقل إلى العديد من المهام الثانوية الغير مشروحة التي لم يتم رؤيتها سابقًا، مما يحسن أداء النموذج الأساسي VL بنسبة تصل إلى 14٪، وحتى يتفوق على خطوط الأساس الكاملة الإشراف في كلٍ من التعرف التلقائي وأقل إشرافًا على الفيديو. سيتم إطلاق الكود لاحقًا في \url{https://github.com/wlin-at/MAXI}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تطابق، توسيع و تحسين: التعديل غير المشرف للاعتراف بالأفعال دون الحاجة إلى تدريب مسبق باستخدام المعرفة اللغوية | مستندات | HyperAI