تعزيز البيانات بقيادة MoCap لتقدير الوضع ثلاثي الأبعاد في البيئة الحقيقية

يتناول هذا البحث مشكلة تقدير وضع الجسم البشري ثلاثي الأبعاد في البيئات الطبيعية. من التحديات الرئيسية نقص البيانات التدريبية، أي الصور ثنائية الأبعاد للبشر مصحوبة بوضعيات ثلاثية الأبعاد. هذه البيانات ضرورية لتدريب هياكل الشبكات العصبية التلافيفية (CNN) المتطورة. هنا، نقترح حلاً لإنشاء مجموعة كبيرة من الصور الاصطناعية الفوتوغرافية للبشر مع توضيح وضعياتها الثلاثية الأبعاد. نقدم محركًا لإنشاء الصور يستخدم بيانات التقاط الحركة ثلاثية الأبعاد (MoCap) لزيادة مجموعة بيانات صور حقيقية ذات توضيحات ثنائية الأبعاد بشكل اصطناعي. بناءً على وضع ثلاثي أبعاد مرشح، يختار خوارزمياتنا لكل مفصل صورة يكون فيها الوضع ثنائي الأبعاد مطابقًا محليًا للوضع ثلاثي الأبعاد المقترن. يتم بعد ذلك دمج الصور المختارة لتوليد صورة اصطناعية جديدة عن طريق خياطة قصاصات الصور المحلية بطريقة مقيدة حركيًا. تُستخدم الصور الناتجة لتدريب شبكة عصبية تلافيفية شاملة من البداية إلى النهاية (CNN) لتقدير وضع الجسم الكامل ثلاثي الأبعاد. نقوم بتجميع بيانات التدريب إلى عدد كبير من فئات الوضعيات ونواجه مشكلة تقدير الوضع كمشكلة تصنيف متعدد الطرق (K-way classification). يمكن تنفيذ مثل هذا النهج فقط باستخدام مجموعات تدريب كبيرة مثل التي لدينا. أثبتت طريقتنا أنها أفضل من أفضل الأساليب الحالية في تقدير وضع الجسم الثلاثي الأبعاد في بيئات مراقبة (Human3.6M) وأظهرت نتائجًا واعدةً بالنسبة للصور الطبيعية (LSP). وهذا يدل على أن الشبكات العصبية التلافيفية المدربة على الصور الاصطناعية تعمم بشكل جيد على الصور الحقيقية.