التكيف دون مصدر ودون تدريب مراقب فقط بالصور للتقدير الفوقي للجسم على مستوى الفئة

نُعَدّ مشكلة التقدير غير المُراقب لمستوى الفئة لاتجاه الوضع (pose) من صور RGB فقط، دون أي وصول إلى بيانات المجال المصدري أو تسميات ثلاثية الأبعاد أثناء التكيّف، إلى مجال مستهدف، مشكلةً صعبة. فجمع وتصنيف البيانات ثلاثية الأبعاد الواقعية وصورها المرافقة هو عملية مُرهقة ومبّلغة التكلفة، لكنها لا مفر منها، لأنّ حتى طرق التكيّف ثلاثية الأبعاد للوضع تتطلب بيانات ثلاثية الأبعاد في المجال المستهدف. نقدّم 3DUDA، وهي طريقة قادرة على التكيّف مع مجال مستهدف مُتَعَبّد بالضوضاء (nuisance-ridden) دون الحاجة إلى بيانات ثلاثية الأبعاد أو بيانات العمق. يستمدّ فهمنا الأساسي من ملاحظة أن أجزاء محددة من الكائنات تبقى ثابتة عبر سيناريوهات خارج المجال (OOD)، مما يمكّن من الاستفادة الاستراتيجية من هذه المكونات الثابتة لتحديث النموذج بشكل فعّال. نُمثّل فئات الكائنات بشبكات مكعبية بسيطة، ونستفيد من نموذج توليدي لنشاطات الميزات العصبية، تم تعلّمه عند كل رأس في الشبكة باستخدام التصوير التفاضلي (differential rendering). ونركّز على ميزات الرؤوس الشبكية المحلية المُستقلّة، ونُحدّثها بشكل تكراري بناءً على قربها من الميزات المماثلة في المجال المستهدف، حتى عندما يكون الوضع الكلي غير دقيق. ثم يُدرّس النموذج بطريقة تشبه خوارزمية EM، بتناوب بين تحديث ميزات الرؤوس ومحوّل الميزات. نُظهِر أن طريقةً لدينا تُحاكي عملية التكيّف الدقيق (fine-tuning) على مجموعة بيانات مُصنّفة بـ"زائفة" على مستوى العالم (global pseudo-labeled dataset) تحت افتراضات معتدلة، وتتّجه تدريجيًا نحو المجال المستهدف. من خلال التحقق التجريبي الواسع، بما في ذلك بيئة UDA معقدة تدمج ضوضاء حقيقية، وضوضاء اصطناعية، وانسدادًا، نُظهر فعالية نهجنا البسيط في التغلب على تحدي التحول بين المجالات وتحسين دقة تقدير الوضع بشكل ملحوظ.