الهندسة المتعددة المهام العميقة لاستشعار الإنسان المتكامل في البعدين الثاني والثالث

نقترح معمارية متعددة المهام عميقة لـ \emph{استشعار الإنسان بشكل كامل وآلي في الأبعاد الثنائية والثلاثية} (DMHS)، بما في ذلك \emph{التعرف وإعادة البناء}، في \emph{الصور الأحادية العدسة}. يقوم النظام بحساب تقسيم الخلفية والشخص، ويحدد أجزاء جسم الإنسان على مستوى البكسل بشكل دلالي، ويقدر وضع الشخص في الأبعاد الثنائية والثلاثية. تدعم النموذج التدريب المشترك لكافة المكونات من خلال خسائر متعددة المهام حيث يتم تغذية مراحل المعالجة المبكرة بشكل متكرر إلى المراحل المتقدمة لأداء حسابات أكثر تعقيدًا وزيادة الدقة والاستقرار. يتيح التصميم لنا ربط بروتوكول تدريب كامل، من خلال الاستفادة من عدة قواعد بيانات ستعمل بطريقة مقيدة لتغطية بعض مكونات النموذج فقط: بيانات صور ثنائية معقدة بدون تصنيف لأجزاء الجسم ولacking المرجعيات الحقيقية ثلاثية الأبعاد ذات الصلة، أو بيانات ثلاثية الأبعاد معقدة مع تنوع محدود في الخلفيات ثنائية الأبعاد. في تجارب مفصلة استندت إلى عدة قواعد بيانات ثنائية وثلاثية الأبعاد صعبة (LSP، HumanEva، Human3.6M)، نقيم بنى النموذج الفرعية، تأثير أنواع مختلفة من البيانات التدريبية في الخسارة متعددة المهام، ونبين أنه يمكن تحقيق نتائج رائدة على جميع مستويات المعالجة. كما نظهر أن نظامنا الأحادي العدسة RGB يتنافس بصرياً مع نظام Kinect الرائد (تجاري) المستند إلى بيانات RGB-D.请注意,"lacking المرجعيات الحقيقية ثلاثية الأبعاد ذات الricula" 这一部分在阿拉伯语中可能显得有些冗长且不太自然。为了使句子更加流畅,我将其简化为 "بدون المرجعيات الحقيقية ثلاثية الأبعاد ذات الصلة"。这样既保留了原文的意思,又符合阿拉伯语的表达习惯。