HyperAIHyperAI
منذ 2 أشهر

شبكات الرسم والالتفاف الزمني لتقدير وضعية عدة أشخاص في الفيديوهات الأحادية العدسة ثلاثية الأبعاد

Cheng, Yu ; Wang, Bo ; Yang, Bo ; Tan, Robby T.
شبكات الرسم والالتفاف الزمني لتقدير وضعية عدة أشخاص في الفيديوهات الأحادية العدسة ثلاثية الأبعاد
الملخص

رغم التقدم الأخير، فإن تقدير وضعية الأشخاص المتعددين ثلاثي الأبعاد من مقاطع الفيديو أحادية العدسة لا يزال تحديًا بسبب مشكلة فقدان المعلومات التي تحدث بشكل شائع نتيجة الاختفاء الجزئي، وجود أهداف أشخاص خارج الإطار جزئيًا، وتقدير الشخص غير الدقيق. لمعالجة هذه المشكلة، نقترح إطار عمل جديد يدمج شبكات التجميع الرسومية (GCNs) وشبكات التجميع الزمنية (TCNs) لتقدير وضعيات الأشخاص المتعددين ثلاثية الأبعاد بطرق ثابتة دون الحاجة إلى معلمات الكاميرا. على وجه الخصوص، نقدم شبكات التجميع الرسومية للمسارات البشرية (Human-joint GCN)، والتي تختلف عن شبكات التجميع الرسومية الموجودة في أنها تعتمد على رسم بياني موجه يستخدم درجات الثقة من مقدر الوضعية ثنائية الأبعاد لتحسين نتائج تقدير الوضعية. كما نقدم شبكات التجميع الرسومية للعظام البشرية (Human-bone GCN)، والتي تُمثِّل اتصالات العظام وتوفير معلومات إضافية تتجاوز المسارات البشرية. تعمل الشبكتان معًا لتقدير وضعيات الأشخاص ثلاثية الأبعاد في الإطارات المكانية ويمكنهما الاستفادة من المعلومات المرئية للمسارات والعظام في الإطار المستهدف لتقدير المعلومات المختفية أو المفقودة للأجزاء البشرية. لتحسين تقدير الوضعيات الثلاثية الأبعاد بشكل أكبر، نستخدم شبكاتنا الزمنية للتجميع (TCNs) لتقييد الجوانب الزمنية والديناميكية للإنسان. نستخدم شبكة تجميع زمني مشتركة (Joint-TCN) لتقدير وضعيات الأشخاص ثلاثية الأبعاد عبر الإطارات، ونقترح شبكة تجميع زمني للسرعة (Velocity-TCN) لتقدير سرعة المسارات الثلاثية الأبعاد للتأكد من استمرارية تقدير الوضعيات الثلاثية الأبعاد في الإطارات المتتابعة. وأخيرًا، لتقدير وضعيات الإنسان ثلاثية الأبعاد لأكثر من شخص واحد، نقترح شبكة تجميع زمني أساسها (Root-TCN) التي تقوم بتقدير وضعيات الكاميرا ثلاثية الأبعاد دون الحاجة لمعلمات الكاميرا. تُظهر التقييمات الكمية والنوعية فعالية الطريقة المقترحة.