الملخص

نُقدِّم معيارًا جديدًا متعدد الوسائط للفيديوهات يُسمَّى "اختبار الإدراك" (Perception Test)، بهدف تقييم مهارات الإدراك والاستدلال لدى النماذج متعددة الوسائط المُدرَّبة مسبقًا (مثل Flamingo، SeViLA، أو GPT-4). على عكس المعايير الحالية التي تركز على المهام الحسابية (مثل التصنيف أو الكشف أو التتبع)، يركّز اختبار الإدراك على مهارات معينة (الذاكرة، الاستخلاص، الفيزياء، المعاني) وأنواع الاستدلال المختلفة (الوصفية، التفسيرية، التنبؤية، المضادة للواقع) عبر وسائط الفيديو والصوت والنص، مما يوفّر أداة تقييم شاملة وفعّالة. يختبر المعيار قدرة النماذج المُدرَّبة مسبقًا على التحوّل (transfer) في بيئات صفرية/قليلة الأمثلة (zero-shot / few-shot) أو بتدريب محدود. ولتحقيق ذلك، يقدّم اختبار الإدراك 11.6 ألف فيديو من العالم الحقيقي، بمتوسط طول 23 ثانية، تم تصويرها من قبل نحو 100 مشارك حول العالم، وتُظهر سيناريوهات مثيرة للإدراك. تم تسمية هذه الفيديوهات بشكل كثيف بستة أنواع من التسميات (أسئلة اختيار من متعدد وأجوبة مدعومة بمقاطع فيديو، تتبع للكائنات والنقاط، أجزاء زمنية للإجراءات والأصوات)، ما يسمح بتقييم كل من المهام اللغوية وغير اللغوية. إن مجموعات التدريب الدقيق (fine-tuning) والتحقق (validation) من المعيار متاحة للجمهور (بترخيص CC-BY)، إلى جانب خادم تحدٍّ يحتوي على مجموعة اختبار محفوظة (held-out test split). تُظهر نتائج المعيار البشري مقارنةً بالنماذج الرائدة في معالجة أسئلة الفيديو فجوة كبيرة في الأداء (91.4% مقابل 46.2%)، مما يشير إلى وجود مجال واسع للتحسين في فهم الفيديو متعدد الوسائط.يمكن الوصول إلى المجموعة، وشفرة النموذج الأساسي، وخادم التحدي عبر: https://github.com/deepmind/perception_test

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

اختبار الإدراك: معيار تشخيصي للنماذج متعددة الوسائط الفيديو

Viorica Pătrăucean Lucas Smaira Ankush Gupta Adrià Recasens Continente Larisa Markeeva Dylan Banarse Skanda Koppula Joseph Heyward Mateusz Malinowski Yi Yang14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

اختبار الإدراك: معيار تشخيصي للنماذج متعددة الوسائط الفيديو

Viorica Pătrăucean Lucas Smaira Ankush Gupta Adrià Recasens Continente Larisa Markeeva Dylan Banarse Skanda Koppula Joseph Heyward Mateusz Malinowski Yi Yang14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

اختبار الإدراك: معيار تشخيصي للنماذج متعددة الوسائط الفيديو

Viorica Pătrăucean Lucas Smaira Ankush Gupta Adrià Recasens Continente Larisa Markeeva Dylan Banarse Skanda Koppula Joseph Heyward Mateusz Malinowski Yi Yang14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Viorica Pătrăucean Lucas Smaira Ankush Gupta Adrià Recasens Continente Larisa Markeeva Dylan Banarse Skanda Koppula Joseph Heyward Mateusz Malinowski Yi Yang

Viorica Pătrăucean Lucas Smaira Ankush Gupta Adrià Recasens Continente Larisa Markeeva Dylan Banarse Skanda Koppula Joseph Heyward Mateusz Malinowski Yi Yang

Viorica Pătrăucean Lucas Smaira Ankush Gupta Adrià Recasens Continente Larisa Markeeva Dylan Banarse Skanda Koppula Joseph Heyward Mateusz Malinowski Yi Yang