HyperAIHyperAI
منذ 18 أيام

موما-لرغ: رسوم بيانية مُحسَّنة باللغة لتحليل الأنشطة متعددة الكائنات متعددة الأدوار

{Fei-Fei Li, Ehsan Adeli, Juan Carlos Niebles, Jiajun Wu, Lun Yu Li, Zhuoyi Huang, Emily Jin, Ruochen Liu, Wanze Xie, Linden Li, Zane Durante, Zelun Luo}
موما-لرغ: رسوم بيانية مُحسَّنة باللغة لتحليل الأنشطة متعددة الكائنات متعددة الأدوار
الملخص

نماذج الفيديو واللغة (VLMs)، وهي نماذج كبيرة تم تدريبها مسبقًا على أزواج فيديو-نصية كثيرة ولكنها مشوهة من الإنترنت، قد ثارَت ثورة في التعرف على الأنشطة بفضل قدرتها الاستيعابية الممتازة ومهاراتها في فهم المفردات المفتوحة. وعلى الرغم من أن الأنشطة البشرية المعقدة غالبًا ما تكون هرمية وتركيبية، فإن معظم المهام الحالية لتقييم نماذج VLM تركز فقط على الفهم العالي المستوى للفيديو، مما يجعل من الصعب تقييم وفهم دقيق لقدرة نماذج VLM على فهم الأنشطة البشرية المعقدة والدقيقة. مستلهمين من الإطار المُقترح حديثًا MOMA، نُعرّف رُسُوم الأنشطة كتمثيل وحيد وشامل للأنشطة البشرية، يغطي فهم الفيديو على مستويات النشاط، والنشاط الفرعي، والعملية الأساسية. ونُعيد تعريف تحليل النشاط كمهمة شاملة لتكوين رسم الأنشطة، تتطلب فهم الأنشطة البشرية على جميع المستويات الثلاثة. ولتسهيل تقييم النماذج في مجال تحليل النشاط، نقدّم مجموعة بيانات كبيرة تُسمى MOMA-LRG (الرسوم البيانية المُعدّلة لغويًا متعددة الكائنات ومتعددة المشاركين)، تتضمن أنشطة بشرية معقدة مع تسميات رسوم الأنشطة التي يمكن تحويلها بسهولة إلى جمل طبيعية. وأخيرًا، نقدّم منهجًا خفيف الوزن ومستقل عن النموذج لتكيف وتحديث نماذج VLM من خلال دمج المعرفة الهيكلية من رسوم الأنشطة داخل نماذج VLM، مما يعالج القيود الفردية لكل من النماذج اللغوية والنماذج الرسومية. ونُظهر أداءً قويًا في تحليل النشاط بعينات قليلة (few-shot)، ويُقصد من إطارنا تشجيع الأبحاث المستقبلية في النمذجة المشتركة للفيديو والرسوم البيانية واللغة.