HyperAIHyperAI
منذ 16 أيام

IVT: نموذج تحويلي فيديو موجه بالكائنات من الطرف إلى الطرف لتقدير الوضع ثلاثي الأبعاد

Zhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu
IVT: نموذج تحويلي فيديو موجه بالكائنات من الطرف إلى الطرف لتقدير الوضع ثلاثي الأبعاد
الملخص

تهدف تقدير وضعية الإنسان ثلاثية الأبعاد من الفيديو إلى تحديد الإحداثيات الثلاثية الأبعاد لمراتب الجسم البشرية من مقاطع الفيديو. تركز الطرق الحديثة القائمة على المحولات (Transformers) على استخلاص المعلومات الزمانية-المكانية من التكوينات ثنائية الأبعاد المتسلسلة، لكنها لا تستطيع نمذجة ميزة العمق السياقية بشكل فعّال نظرًا لفقدان ميزات العمق البصري في مرحلة تقدير الوضعية ثنائية الأبعاد. في هذه الورقة، نبسط النموذج إلى إطار عمل متكامل (End-to-End)، يُسمى المحول الموجه بالكائن (IVT)، الذي يمكّن من تعلّم معلومات العمق السياقية الزمانية-المكانية من الميزات البصرية بشكل فعّال وتقديم الوضعية ثلاثية الأبعاد مباشرة من الإطارات الفيديوية. بشكل خاص، نُعرّف أولًا الإطارات الفيديوية كسلسلة من الرموز الموجهة بالكائنات (instance-guided tokens)، حيث تُعَيّن كل رمز لتقدير الوضعية ثلاثية الأبعاد لكائن بشري معين. وتحتوي هذه الرموز على معلومات هيكل الجسم، نظرًا لأنها تستخرج بمساعدة متجهات الترجمة من مركز الجسم إلى المراتب المقابلة. ثم تُرسل هذه الرموز إلى المحول الموجه بالكائن (IVT) لتعلم السياق الزماني-المكاني للعمق. بالإضافة إلى ذلك، نقترح آلية انتباه موجهة بالكائن على مقياس متعدد لمعالجة التباين في المقاييس بين عدة أشخاص. وأخيرًا، يتم استخلاص الوضعية ثلاثية الأبعاد لكل شخص من الرموز الموجهة بالكائنات عبر الانحدار الإحداثي. أظهرت التجارب على ثلاث معايير شائعة لتقدير الوضعية ثلاثية الأبعاد أداءً متميزًا يُعد من أفضل الأداءات الحالية.

IVT: نموذج تحويلي فيديو موجه بالكائنات من الطرف إلى الطرف لتقدير الوضع ثلاثي الأبعاد | أحدث الأوراق البحثية | HyperAI