HyperAIHyperAI

Command Palette

Search for a command to run...

IVT: نموذج تحويلي فيديو موجه بالكائنات من الطرف إلى الطرف لتقدير الوضع ثلاثي الأبعاد

Zhongwei Qiu Qiansheng Yang Jian Wang Dongmei Fu

الملخص

تهدف تقدير وضعية الإنسان ثلاثية الأبعاد من الفيديو إلى تحديد الإحداثيات الثلاثية الأبعاد لمراتب الجسم البشرية من مقاطع الفيديو. تركز الطرق الحديثة القائمة على المحولات (Transformers) على استخلاص المعلومات الزمانية-المكانية من التكوينات ثنائية الأبعاد المتسلسلة، لكنها لا تستطيع نمذجة ميزة العمق السياقية بشكل فعّال نظرًا لفقدان ميزات العمق البصري في مرحلة تقدير الوضعية ثنائية الأبعاد. في هذه الورقة، نبسط النموذج إلى إطار عمل متكامل (End-to-End)، يُسمى المحول الموجه بالكائن (IVT)، الذي يمكّن من تعلّم معلومات العمق السياقية الزمانية-المكانية من الميزات البصرية بشكل فعّال وتقديم الوضعية ثلاثية الأبعاد مباشرة من الإطارات الفيديوية. بشكل خاص، نُعرّف أولًا الإطارات الفيديوية كسلسلة من الرموز الموجهة بالكائنات (instance-guided tokens)، حيث تُعَيّن كل رمز لتقدير الوضعية ثلاثية الأبعاد لكائن بشري معين. وتحتوي هذه الرموز على معلومات هيكل الجسم، نظرًا لأنها تستخرج بمساعدة متجهات الترجمة من مركز الجسم إلى المراتب المقابلة. ثم تُرسل هذه الرموز إلى المحول الموجه بالكائن (IVT) لتعلم السياق الزماني-المكاني للعمق. بالإضافة إلى ذلك، نقترح آلية انتباه موجهة بالكائن على مقياس متعدد لمعالجة التباين في المقاييس بين عدة أشخاص. وأخيرًا، يتم استخلاص الوضعية ثلاثية الأبعاد لكل شخص من الرموز الموجهة بالكائنات عبر الانحدار الإحداثي. أظهرت التجارب على ثلاث معايير شائعة لتقدير الوضعية ثلاثية الأبعاد أداءً متميزًا يُعد من أفضل الأداءات الحالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
IVT: نموذج تحويلي فيديو موجه بالكائنات من الطرف إلى الطرف لتقدير الوضع ثلاثي الأبعاد | مستندات | HyperAI