HyperAIHyperAI

Command Palette

Search for a command to run...

COMPOSER: الاستدلال التكويني للنشاط الجماعي في الفيديوهات باستخدام وسيلة معلوماتية فقط من النقاط الأساسية

Honglu Zhou Asim Kadav Aviv Shamsian Shijie Geng Farley Lai Long Zhao Ting Liu Mubbasir Kapadia Hans Peter Graf

الملخص

تمييز الأنشطة الجماعية يُعَدّ الكشف عن النشاط الذي يُنَفَّذ جماعيًا من قِبل مجموعة من المشاركين، وهو ما يتطلب استدلالًا تراكبيًا بين المشاركين والكائنات. نتناول هذه المهمة من خلال نمذجة الفيديو على شكل "رموز" (tokens) تمثل المفاهيم المعنى متعددة المقاييس في الفيديو. نُقدِّم معمارية COMPOSER، التي تعتمد على مُحَوِّل متعدد المقاييس (Multiscale Transformer)، وتُنَفِّذ استدلالًا مبنيًا على الانتباه على الرموز في كل مقياس، وتعلّم تراكيب الأنشطة الجماعية بشكل تراكمي. بالإضافة إلى ذلك، تعاني الدراسات السابقة من التحيّزات المكانية، إضافة إلى مخاوف تتعلق بالخصوصية وأخلاقيات الاستخدام. ولهذا، نستخدم فقط وسيلة البيانات المتمثلة في نقاط المفاصل (keypoint modality)، التي تقلل من التحيزات المكانية وتحمي من جمع بيانات بصرية مفصلة قد تحتوي على معلومات خاصة أو متحيزة عن المستخدمين. ونُحسِّن التمثيلات متعددة المقاييس في COMPOSER من خلال تجميع التمثيلات المتوسطة بين المقاييس، مع الحفاظ على تخصيصات المجموعات المتسقة بين المقاييس المختلفة. وأخيرًا، نستخدم تقنيات مثل التنبؤ الثانوي (auxiliary prediction) وتمديدات البيانات (data augmentations) المُصممة خصيصًا للإشارات النقطية (keypoint signals) لدعم تدريب النموذج. نُظهر قوة النموذج وقابلية تفسيره على مجموعتين شهيرتين للبيانات (Volleyball وCollective Activity). وتحقيق COMPOSER تحسنًا يصل إلى +5.4% باستخدام وسيلة البيانات النقطية فقط. يُمكن الوصول إلى الكود عبر الرابط: https://github.com/hongluzhou/composer


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp