HyperAIHyperAI

Command Palette

Search for a command to run...

اختبار الإدراك: معيار تشخيصي للنماذج متعددة الوسائط الفيديو

الملخص

نُقدِّم معيارًا جديدًا متعدد الوسائط للفيديوهات يُسمَّى "اختبار الإدراك" (Perception Test)، بهدف تقييم مهارات الإدراك والاستدلال لدى النماذج متعددة الوسائط المُدرَّبة مسبقًا (مثل Flamingo، SeViLA، أو GPT-4). على عكس المعايير الحالية التي تركز على المهام الحسابية (مثل التصنيف أو الكشف أو التتبع)، يركّز اختبار الإدراك على مهارات معينة (الذاكرة، الاستخلاص، الفيزياء، المعاني) وأنواع الاستدلال المختلفة (الوصفية، التفسيرية، التنبؤية، المضادة للواقع) عبر وسائط الفيديو والصوت والنص، مما يوفّر أداة تقييم شاملة وفعّالة. يختبر المعيار قدرة النماذج المُدرَّبة مسبقًا على التحوّل (transfer) في بيئات صفرية/قليلة الأمثلة (zero-shot / few-shot) أو بتدريب محدود. ولتحقيق ذلك، يقدّم اختبار الإدراك 11.6 ألف فيديو من العالم الحقيقي، بمتوسط طول 23 ثانية، تم تصويرها من قبل نحو 100 مشارك حول العالم، وتُظهر سيناريوهات مثيرة للإدراك. تم تسمية هذه الفيديوهات بشكل كثيف بستة أنواع من التسميات (أسئلة اختيار من متعدد وأجوبة مدعومة بمقاطع فيديو، تتبع للكائنات والنقاط، أجزاء زمنية للإجراءات والأصوات)، ما يسمح بتقييم كل من المهام اللغوية وغير اللغوية. إن مجموعات التدريب الدقيق (fine-tuning) والتحقق (validation) من المعيار متاحة للجمهور (بترخيص CC-BY)، إلى جانب خادم تحدٍّ يحتوي على مجموعة اختبار محفوظة (held-out test split). تُظهر نتائج المعيار البشري مقارنةً بالنماذج الرائدة في معالجة أسئلة الفيديو فجوة كبيرة في الأداء (91.4% مقابل 46.2%)، مما يشير إلى وجود مجال واسع للتحسين في فهم الفيديو متعدد الوسائط.يمكن الوصول إلى المجموعة، وشفرة النموذج الأساسي، وخادم التحدي عبر: https://github.com/deepmind/perception_test


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp