فهم الصورة اليدوية من خلال التعلم متعدد المهام العميق

تحليل وفهم معلومات اليد من المواد متعددة الوسائط مثل الصور أو الفيديوهات يُعد أمرًا مهمًا لعدد كبير من التطبيقات الواقعية، ويبقى مجالًا نشطًا في الأوساط البحثية. توجد العديد من الدراسات التي تركز على استرجاع معلومات اليد من صورة واحدة، لكنها غالبًا ما تُعالج مهمة واحدة فقط، مثل تقسيم ماسك اليد، أو تقدير وضعية اليد ثنائية أو ثلاثية الأبعاد، أو إعادة بناء شبكة اليد (hand mesh)، وتُظهر أداءً محدودًا في السيناريوهات الصعبة. ولتحسين الأداء في هذه المهام بشكل أكبر، نقترح إطارًا جديدًا لفهم الصور اليدوية (Hand Image Understanding - HIU) يستخرج معلومات شاملة عن كائن اليد من صورة RGB واحدة، من خلال النظر المشترك في العلاقات بين هذه المهام. لتحقيق هذا الهدف، تم تصميم هيكل أساسي مبني على التعلم متعدد المهام المتسلسل (cascaded multi-task learning - MTL) لتقدير خرائط الحرارة ثنائية الأبعاد، وتعلم ماسك التقسيم، وإنشاء معلومات ثلاثية الأبعاد وسيطة، يتبع ذلك نموذج تعلم تدريجي من الخشن إلى الدقيق (coarse-to-fine learning paradigm) واستراتيجية تعلم ذاتي (self-supervised learning). تُظهر التجارب الكمية أن منهجنا قادر على استرجاع تمثيلات شبكيّة معقولة حتى في الظروف الصعبة. من الناحية الكمية، يتفوق منهجنا بشكل كبير على أحدث الطرق المُعلنة على مجموعة متنوعة من المجموعات الشهيرة المستخدمة في الأبحاث، من حيث مجموعة متنوعة من مقاييس التقييم.