HandAugment: طريقة بسيطة لتعزيز البيانات لتقدير وضع اليد ثلاثي الأبعاد القائم على العمق

تم استكشاف تقدير وضعية اليد من صور العمق ثلاثية الأبعاد بشكل واسع باستخدام مجموعة متنوعة من التقنيات في مجال رؤية الحاسوب. وعلى الرغم من أن الطرق القائمة على التعلم العميق قد عززت الأداء بشكل كبير مؤخرًا، إلا أن هذه المشكلة لا تزال غير محلولة بالكامل بسبب نقص قواعد بيانات كبيرة مثل ImageNet أو أساليب فعّالة لتركيب البيانات. في هذه الورقة، نقترح طريقة تُسمى HandAugment، وهي طريقة لتركيب بيانات صور لتعزيز عملية تدريب الشبكات العصبية. تتكون طريقتنا من جزأين رئيسيين: أولاً، نقترح مخططًا للشبكات العصبية ذات مرحلتين، والذي يمكن أن يُوجه انتباه الشبكات العصبية إلى مناطق اليد، وبالتالي تحسين الأداء. ثانيًا، نقدم طريقة بسيطة وفعّالة لتركيب البيانات من خلال دمج الصور الحقيقية والصورية معًا في فضاء الصورة. وأخيرًا، نُظهر أن طريقتنا حققت المركز الأول في مهمة تقدير وضعية اليد ثلاثية الأبعاد المستندة إلى العمق ضمن تحدي HANDS 2019.