HyperAIHyperAI
منذ 2 أشهر

وينوجافيل: معيار تشاركي لتحدي نماذج الرؤية واللغة

Yonatan Bitton; Nitzan Bitton Guetta; Ron Yosef; Yuval Elovici; Mohit Bansal; Gabriel Stanovsky; Roy Schwartz
وينوجافيل: معيار تشاركي لتحدي نماذج الرؤية واللغة
الملخص

بينما تؤدي نماذج الرؤية واللغة بشكل جيد في المهام مثل الإجابة على الأسئلة البصرية، فإنها تعاني عند التعامل مع مهارات التفكير البسيطة الخاصة بالبشر. في هذا العمل، نقدم WinoGAViL: لعبة عبر الإنترنت تربط بين الرؤية واللغة (مثل ربط الذئاب البشرية بالقمر الكامل)، وتُستخدم كمعيار تقييم ديناميكي. مستوحاة من اللعبة الشهيرة "Codenames"، يقوم مدير الجواسيس بتقديم إشارة نصية مرتبطة بعدة خيارات بصرية، ويحاول لاعب آخر تحديد هذه الخيارات. يتم مكافأة اللاعبين البشريين لإنشاء روابط تكون صعبة على نموذج ذكاء اصطناعي منافس ولكنها لا تزال قابلة للحل من قبل اللاعبين الآخرين. نستخدم اللعبة لجمع 3.5K حالة، ونجد أنها بديهية للبشر (أكثر من 90% من مؤشر جاكارد) ولكنها صعبة بالنسبة لأحدث نماذج الذكاء الاصطناعي، حيث يحقق أفضل النماذج (ViLT) درجة قدرها 52٪، وينجح بشكل أساسي عندما تكون الإشارة النصية واضحة بصريًا. تشير تحليلاتنا بالإضافة إلى ردود الفعل التي نجمعها من اللاعبين إلى أن الروابط المجمعة تتطلب مجموعة متنوعة من مهارات التفكير، بما في ذلك المعرفة العامة، الحس السليم، التجريد وغيرها. نقوم بإصدار مجموعة البيانات والكود واللعبة التفاعلية، مما يسمح بجمع بيانات مستقبلي يمكن استخدامها لتطوير نماذج ذات قدرات ربط أفضل.

وينوجافيل: معيار تشاركي لتحدي نماذج الرؤية واللغة | أحدث الأوراق البحثية | HyperAI