منذ 4 أشهر

موما-لرغ: رسوم بيانية مُحسَّنة باللغة لتحليل الأنشطة متعددة الكائنات متعددة الأدوار

{Fei-Fei Li Ehsan Adeli Juan Carlos Niebles Jiajun Wu Lun Yu Li Zhuoyi Huang Emily Jin Ruochen Liu Wanze Xie Linden Li

الملخص

نماذج الفيديو واللغة (VLMs)، وهي نماذج كبيرة تم تدريبها مسبقًا على أزواج فيديو-نصية كثيرة ولكنها مشوهة من الإنترنت، قد ثارَت ثورة في التعرف على الأنشطة بفضل قدرتها الاستيعابية الممتازة ومهاراتها في فهم المفردات المفتوحة. وعلى الرغم من أن الأنشطة البشرية المعقدة غالبًا ما تكون هرمية وتركيبية، فإن معظم المهام الحالية لتقييم نماذج VLM تركز فقط على الفهم العالي المستوى للفيديو، مما يجعل من الصعب تقييم وفهم دقيق لقدرة نماذج VLM على فهم الأنشطة البشرية المعقدة والدقيقة. مستلهمين من الإطار المُقترح حديثًا MOMA، نُعرّف رُسُوم الأنشطة كتمثيل وحيد وشامل للأنشطة البشرية، يغطي فهم الفيديو على مستويات النشاط، والنشاط الفرعي، والعملية الأساسية. ونُعيد تعريف تحليل النشاط كمهمة شاملة لتكوين رسم الأنشطة، تتطلب فهم الأنشطة البشرية على جميع المستويات الثلاثة. ولتسهيل تقييم النماذج في مجال تحليل النشاط، نقدّم مجموعة بيانات كبيرة تُسمى MOMA-LRG (الرسوم البيانية المُعدّلة لغويًا متعددة الكائنات ومتعددة المشاركين)، تتضمن أنشطة بشرية معقدة مع تسميات رسوم الأنشطة التي يمكن تحويلها بسهولة إلى جمل طبيعية. وأخيرًا، نقدّم منهجًا خفيف الوزن ومستقل عن النموذج لتكيف وتحديث نماذج VLM من خلال دمج المعرفة الهيكلية من رسوم الأنشطة داخل نماذج VLM، مما يعالج القيود الفردية لكل من النماذج اللغوية والنماذج الرسومية. ونُظهر أداءً قويًا في تحليل النشاط بعينات قليلة (few-shot)، ويُقصد من إطارنا تشجيع الأبحاث المستقبلية في النمذجة المشتركة للفيديو والرسوم البيانية واللغة.

المعايير القياسية

معيار قياسي	المنهجية	المقاييس
few-shot-action-recognition-on-moma-lrg	CMN	Activity Classification Accuracy (5-shot 5-way): 86.3 Subactivity Classification Accuracy (5-shot 5-way): 66.6
few-shot-action-recognition-on-moma-lrg	OTAM	Activity Classification Accuracy (5-shot 5-way): 92.07 Subactivity Classification Accuracy (5-shot 5-way): 72.59
few-shot-action-recognition-on-moma-lrg	SG-VLM	Activity Classification Accuracy (5-shot 5-way): 92.5 Subactivity Classification Accuracy (5-shot 5-way): 32.70

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette