HyperAIHyperAI
منذ 2 أشهر

ELEVATER: معيار وأداة لتقدير نماذج الرؤية المدعمة باللغة

Chunyuan Li; Haotian Liu; Liunian Harold Li; Pengchuan Zhang; Jyoti Aneja; Jianwei Yang; Ping Jin; Houdong Hu; Zicheng Liu; Yong Jae Lee; Jianfeng Gao
ELEVATER: معيار وأداة لتقدير نماذج الرؤية المدعمة باللغة
الملخص

تعلم التمثيلات البصرية من الإشراف باللغة الطبيعية أظهر مؤخرًا وعودًا كبيرة في عدد من الأعمال الرائدة. بشكل عام، تُظهر هذه النماذج البصرية المعززة باللغة قابلية نقل قوية إلى مجموعة متنوعة من المجموعات والمهام. ومع ذلك، لا يزال من الصعب تقييم قابلية نقل هذه النماذج بسبب نقص أدوات التقييم السهلة الاستخدام والمعياريات العامة. لحل هذه المشكلة، قمنا ببناء ELEVATER (تقييم النقل المستوي-المهمة للنماذج البصرية المعززة باللغة)، وهو أول معيار وأداة لتقييم النماذج البصرية المعززة باللغة (المدربة مسبقًا). يتكون ELEVATER من ثلاثة مكونات: (i) المجموعات البيانات. ك Suites تقييمية لأسفل التيار، تتضمن 20 مجموعة بيانات تصنيف صور و35 مجموعة بيانات اكتشاف الأشياء، وكل منها معزز بالمعرفة الخارجية. (ii) الأداة. تم تطوير أداة ضبط الهيبرباراميترات تلقائيًا لتسهيل تقييم النموذج على المهام اللاحقة. (iii) المقاييس. يتم استخدام مجموعة متنوعة من مقاييس التقييم لقياس كفاءة العينات (بدون أمثلة وتوفير أمثلة قليلة) وكفاءة المعلمات (استكشاف خطي وضبط كامل للنموذج). يعتبر ELEVATER منصة لرؤية الحاسوب في البيئة الطبيعية (CVinW)، وقد تم إصداره بشكل عام على الرابط https://computer-vision-in-the-wild.github.io/ELEVATER/