HyperAIHyperAI
منذ 17 أيام

مرصَد ميرلوت: معرفة سيناريوهات عصبية من خلال الرؤية واللغة والصوت

Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi, Yejin Choi
مرصَد ميرلوت: معرفة سيناريوهات عصبية من خلال الرؤية واللغة والصوت
الملخص

كما البشر، نتّنقل في عالم متعدد الوسائط، ونُكوّن فهماً شاملاً من خلال جميع حواسنا. نقدّم نموذج MERLOT Reserve، الذي يُمثّل الفيديوهات بشكل مشترك عبر الزمن – من خلال هدف تدريب جديد يتعلم من الصوت، والنصوص الترجمية، وأطر الفيديو. عند إعطاء فيديو، نستبدل مقاطع النص والصوت برمز MASK؛ ويتعلم النموذج من خلال اختيار المقطع المُخفي الصحيح. يتعلم هذا الهدف بشكل أسرع من البدائل، ويُظهر أداءً ممتازًا عند التوسع: حيث نُدرّب النموذج مسبقًا على 20 مليون فيديو من يوتيوب.تُظهر النتائج التجريبية أن MERLOT Reserve يتعلم تمثيلات متعددة الوسائط قوية. عند تحسينه (fine-tuning)، يحقق أفضل أداء ممكن في مهام التفكير السياقي البصري (VCR)، وTVQA، وKinetics-600، متفوقًا على الأعمال السابقة بنسبة 5% و7% و1.5% على التوالي. كما تُظهر الدراسات التحليلية أن هذه المهام تستفيد من التدريب المسبق على الصوت – حتى مهام مثل VCR التي تتمحور حول الصور (بدون صوت). علاوةً على ذلك، يمكّن هذا الهدف من التنبؤ المباشر دون تدريب إضافي، مما يكشف عن فهم قوي للمعرفة الشائعة متعددة الوسائط. في بيئة تنبؤ صفرية (fully zero-shot)، يحقق النموذج نتائج تنافسية في أربع مهام فيديو، ويتخطى حتى النماذج المدربة بأسلوب مراقب (supervised) على معيار Situated Reasoning (STAR) الذي تم اقتراحه حديثًا.نحلل سبب تمكّن الصوت من تحسين تمثيلات الرؤية واللغة، مما يشير إلى فرص كبيرة للبحث المستقبلي. ونختتم بمناقشة الآثار الأخلاقية والاجتماعية للتدريب المسبق متعدد الوسائط.

مرصَد ميرلوت: معرفة سيناريوهات عصبية من خلال الرؤية واللغة والصوت | أحدث الأوراق البحثية | HyperAI