ELEVATER: معيار وأداة لتقدير نماذج الرؤية المدعمة باللغة

تعلم التمثيلات البصرية من الإشراف باللغة الطبيعية أظهر مؤخرًا وعودًا كبيرة في عدد من الأعمال الرائدة. بشكل عام، تُظهر هذه النماذج البصرية المعززة باللغة قابلية نقل قوية إلى مجموعة متنوعة من المجموعات والمهام. ومع ذلك، لا يزال من الصعب تقييم قابلية نقل هذه النماذج بسبب نقص أدوات التقييم السهلة الاستخدام والمعياريات العامة. لحل هذه المشكلة، قمنا ببناء ELEVATER (تقييم النقل المستوي-المهمة للنماذج البصرية المعززة باللغة)، وهو أول معيار وأداة لتقييم النماذج البصرية المعززة باللغة (المدربة مسبقًا). يتكون ELEVATER من ثلاثة مكونات: (i) المجموعات البيانات. ك Suites تقييمية لأسفل التيار، تتضمن 20 مجموعة بيانات تصنيف صور و35 مجموعة بيانات اكتشاف الأشياء، وكل منها معزز بالمعرفة الخارجية. (ii) الأداة. تم تطوير أداة ضبط الهيبرباراميترات تلقائيًا لتسهيل تقييم النموذج على المهام اللاحقة. (iii) المقاييس. يتم استخدام مجموعة متنوعة من مقاييس التقييم لقياس كفاءة العينات (بدون أمثلة وتوفير أمثلة قليلة) وكفاءة المعلمات (استكشاف خطي وضبط كامل للنموذج). يعتبر ELEVATER منصة لرؤية الحاسوب في البيئة الطبيعية (CVinW)، وقد تم إصداره بشكل عام على الرابط https://computer-vision-in-the-wild.github.io/ELEVATER/