HOnnotate: طريقة لتدوين ملاحظات ثلاثية الأبعاد لمواقع اليد والكائنات
نقترح طريقة لتصنيف صور اليد وهي تتعامل مع كائن بوضعيات ثلاثية الأبعاد لكل من اليد والكائن، بالإضافة إلى مجموعة بيانات تم إنشاؤها باستخدام هذه الطريقة. دوافعنا هي النقص الحالي في الصور الحقيقية المصنفة لهذه المشكلة، حيث يعد تقدير الوضعيات ثلاثية الأبعاد تحديًا كبيرًا، وذلك أساساً بسبب التداخل المتبادل بين اليد والكائن. للتعامل مع هذا التحدي، نقوم بتصوير سلاسل باستخدام كاميرا واحدة أو عدة كاميرات RGB-D وتحسين الوضعيات ثلاثية الأبعاد لليد والكائن بشكل مشترك على جميع الإطارات في آن واحد. تتيح هذه الطريقة لنا تصنيف كل إطار تلقائيًا بتقديرات دقيقة للوضعيات، حتى في حالة وجود تداخلات متبادلة كبيرة. باستخدام هذه الطريقة، أنشأنا مجموعة بيانات HO-3D، وهي أول مجموعة بيانات بلا علامات تحتوي على صور ملونة مع تصنيفات ثلاثية الأبعاد لكل من اليد والكائن. تتكون هذه المجموعة حاليًا من 77,558 إطارًا، 68 سلسلة، 10 أشخاص، و10 كائنات. باستخدام مجموعتنا من البيانات، طورنا طريقة تعتمد على صورة RGB واحدة لتنبؤ وضعية اليد عند التعامل مع الكائنات تحت ظروف التداخل الشديد وأظهرنا أنها قابلة للتعميم على كائنات لم يتم رؤيتها في مجموعة البيانات.