Command Palette
Search for a command to run...
ELEVATER: معيار وأداة لتقدير نماذج الرؤية المدعمة باللغة
ELEVATER: معيار وأداة لتقدير نماذج الرؤية المدعمة باللغة
Chunyuan Li∗1♠, Haotian Liu∗2, Liunian Harold Li3, Pengchuan Zhang1, Jyoti Aneja1, Jianwei Yang1, Ping Jin1, Houdong Hu1, Zicheng Liu1, Yong Jae Lee2, Jianfeng Gao1
الملخص
تعلم التمثيلات البصرية من الإشراف باللغة الطبيعية أظهر مؤخرًا وعودًا كبيرة في عدد من الأعمال الرائدة. بشكل عام، تُظهر هذه النماذج البصرية المعززة باللغة قابلية نقل قوية إلى مجموعة متنوعة من المجموعات والمهام. ومع ذلك، لا يزال من الصعب تقييم قابلية نقل هذه النماذج بسبب نقص أدوات التقييم السهلة الاستخدام والمعياريات العامة. لحل هذه المشكلة، قمنا ببناء ELEVATER (تقييم النقل المستوي-المهمة للنماذج البصرية المعززة باللغة)، وهو أول معيار وأداة لتقييم النماذج البصرية المعززة باللغة (المدربة مسبقًا). يتكون ELEVATER من ثلاثة مكونات: (i) المجموعات البيانات. ك Suites تقييمية لأسفل التيار، تتضمن 20 مجموعة بيانات تصنيف صور و35 مجموعة بيانات اكتشاف الأشياء، وكل منها معزز بالمعرفة الخارجية. (ii) الأداة. تم تطوير أداة ضبط الهيبرباراميترات تلقائيًا لتسهيل تقييم النموذج على المهام اللاحقة. (iii) المقاييس. يتم استخدام مجموعة متنوعة من مقاييس التقييم لقياس كفاءة العينات (بدون أمثلة وتوفير أمثلة قليلة) وكفاءة المعلمات (استكشاف خطي وضبط كامل للنموذج). يعتبر ELEVATER منصة لرؤية الحاسوب في البيئة الطبيعية (CVinW)، وقد تم إصداره بشكل عام على الرابط https://computer-vision-in-the-wild.github.io/ELEVATER/