HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

موما-لرغ: رسوم بيانية مُحسَّنة باللغة لتحليل الأنشطة متعددة الكائنات متعددة الأدوار

موما-لرغ: رسوم بيانية مُحسَّنة باللغة لتحليل الأنشطة متعددة الكائنات متعددة الأدوار

الملخص

نماذج الفيديو واللغة (VLMs)، وهي نماذج كبيرة تم تدريبها مسبقًا على أزواج فيديو-نصية كثيرة ولكنها مشوهة من الإنترنت، قد ثارَت ثورة في التعرف على الأنشطة بفضل قدرتها الاستيعابية الممتازة ومهاراتها في فهم المفردات المفتوحة. وعلى الرغم من أن الأنشطة البشرية المعقدة غالبًا ما تكون هرمية وتركيبية، فإن معظم المهام الحالية لتقييم نماذج VLM تركز فقط على الفهم العالي المستوى للفيديو، مما يجعل من الصعب تقييم وفهم دقيق لقدرة نماذج VLM على فهم الأنشطة البشرية المعقدة والدقيقة. مستلهمين من الإطار المُقترح حديثًا MOMA، نُعرّف رُسُوم الأنشطة كتمثيل وحيد وشامل للأنشطة البشرية، يغطي فهم الفيديو على مستويات النشاط، والنشاط الفرعي، والعملية الأساسية. ونُعيد تعريف تحليل النشاط كمهمة شاملة لتكوين رسم الأنشطة، تتطلب فهم الأنشطة البشرية على جميع المستويات الثلاثة. ولتسهيل تقييم النماذج في مجال تحليل النشاط، نقدّم مجموعة بيانات كبيرة تُسمى MOMA-LRG (الرسوم البيانية المُعدّلة لغويًا متعددة الكائنات ومتعددة المشاركين)، تتضمن أنشطة بشرية معقدة مع تسميات رسوم الأنشطة التي يمكن تحويلها بسهولة إلى جمل طبيعية. وأخيرًا، نقدّم منهجًا خفيف الوزن ومستقل عن النموذج لتكيف وتحديث نماذج VLM من خلال دمج المعرفة الهيكلية من رسوم الأنشطة داخل نماذج VLM، مما يعالج القيود الفردية لكل من النماذج اللغوية والنماذج الرسومية. ونُظهر أداءً قويًا في تحليل النشاط بعينات قليلة (few-shot)، ويُقصد من إطارنا تشجيع الأبحاث المستقبلية في النمذجة المشتركة للفيديو والرسوم البيانية واللغة.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
few-shot-action-recognition-on-moma-lrgCMN
Activity Classification Accuracy (5-shot 5-way): 86.3
Subactivity Classification Accuracy (5-shot 5-way): 66.6
few-shot-action-recognition-on-moma-lrgOTAM
Activity Classification Accuracy (5-shot 5-way): 92.07
Subactivity Classification Accuracy (5-shot 5-way): 72.59
few-shot-action-recognition-on-moma-lrgSG-VLM
Activity Classification Accuracy (5-shot 5-way): 92.5
Subactivity Classification Accuracy (5-shot 5-way): 32.70

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
موما-لرغ: رسوم بيانية مُحسَّنة باللغة لتحليل الأنشطة متعددة الكائنات متعددة الأدوار | الأوراق البحثية | HyperAI