HyperAIHyperAI
منذ 17 أيام

COMPOSER: الاستدلال التكويني للنشاط الجماعي في الفيديوهات باستخدام وسيلة معلوماتية فقط من النقاط الأساسية

Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, Hans Peter Graf
COMPOSER: الاستدلال التكويني للنشاط الجماعي في الفيديوهات باستخدام وسيلة معلوماتية فقط من النقاط الأساسية
الملخص

تمييز الأنشطة الجماعية يُعَدّ الكشف عن النشاط الذي يُنَفَّذ جماعيًا من قِبل مجموعة من المشاركين، وهو ما يتطلب استدلالًا تراكبيًا بين المشاركين والكائنات. نتناول هذه المهمة من خلال نمذجة الفيديو على شكل "رموز" (tokens) تمثل المفاهيم المعنى متعددة المقاييس في الفيديو. نُقدِّم معمارية COMPOSER، التي تعتمد على مُحَوِّل متعدد المقاييس (Multiscale Transformer)، وتُنَفِّذ استدلالًا مبنيًا على الانتباه على الرموز في كل مقياس، وتعلّم تراكيب الأنشطة الجماعية بشكل تراكمي. بالإضافة إلى ذلك، تعاني الدراسات السابقة من التحيّزات المكانية، إضافة إلى مخاوف تتعلق بالخصوصية وأخلاقيات الاستخدام. ولهذا، نستخدم فقط وسيلة البيانات المتمثلة في نقاط المفاصل (keypoint modality)، التي تقلل من التحيزات المكانية وتحمي من جمع بيانات بصرية مفصلة قد تحتوي على معلومات خاصة أو متحيزة عن المستخدمين. ونُحسِّن التمثيلات متعددة المقاييس في COMPOSER من خلال تجميع التمثيلات المتوسطة بين المقاييس، مع الحفاظ على تخصيصات المجموعات المتسقة بين المقاييس المختلفة. وأخيرًا، نستخدم تقنيات مثل التنبؤ الثانوي (auxiliary prediction) وتمديدات البيانات (data augmentations) المُصممة خصيصًا للإشارات النقطية (keypoint signals) لدعم تدريب النموذج. نُظهر قوة النموذج وقابلية تفسيره على مجموعتين شهيرتين للبيانات (Volleyball وCollective Activity). وتحقيق COMPOSER تحسنًا يصل إلى +5.4% باستخدام وسيلة البيانات النقطية فقط. يُمكن الوصول إلى الكود عبر الرابط: https://github.com/hongluzhou/composer