تجاوز المظهر: إطار تعلم ذاتي قابل للتحكم الدلالي للمهام البصرية المتمحورة حول الإنسان

المهام البصرية المتمحورة حول الإنسان جذبت اهتمامًا بحثيًا متزايدًا بسبب تطبيقاتها الواسعة. في هذا البحث، نهدف إلى تعلم تمثيل إنساني عام من صور إنسان ضخمة غير مصنفة والتي يمكن أن تستفيد منها المهام البصرية المتمحورة حول الإنسان بشكل كبير. نطلق على هذه الطريقة اسم SOLIDER، وهو إطار للتعلم الذاتي القابل للتحكم في المعنى (Semantic cOntrollable seLf-supervIseD lEaRning).على عكس طرق التعلم الذاتي الحالية، يتم استخدام المعرفة السابقة من الصور الإنسانية في SOLIDER لبناء ملصقات معنوية وهمية وإدخال المزيد من المعلومات المعنوية في التمثيل المستفاد. وفي الوقت نفسه، نلاحظ أن المهام اللاحقة المختلفة تتطلب دائمًا نسبًا مختلفة من المعلومات المعنوية والمعلومات الشكلية. على سبيل المثال، يتطلب تحليل الإنسان المزيد من المعلومات المعنوية، بينما يحتاج التعرف على الهوية الشخصية إلى المزيد من المعلومات الشكلية للأغراض التعريفية.لذا,则单个学习到的表示无法满足所有需求。为了解决这个问题,SOLIDER 引入了一个带有语义控制器的条件网络。在模型训练完成后,用户可以向控制器发送值以生成具有不同比例语义信息的表示,从而适应下游任务的不同需求。请注意,这里有一句是从中文复制过来的,我将根据上下文重新翻译这一部分:لذا، لا يمكن لتمثيل واحد مستفاد أن يلائم جميع المتطلبات. لحل هذه المشكلة، يُدخل SOLIDER شبكة شرطية مع محكم معنوي. بعد تدريب النموذج، يمكن للمستخدمين إرسال قيم إلى المحكم لإنتاج تمثيلات ذات نسب مختلفة من المعلومات المعنوية، مما يمكنها من تناسب احتياجات المهام اللاحقة المختلفة.أخيرًا، تم التحقق من SOLIDER في ستة مهام بصرية لاحقة متمحورة حول الإنسان. وقد أظهرت أداءً أفضل من أفضل التقنيات الحالية وأقامت أسسًا جديدة لهذه المهام. تم إطلاق الكود في https://github.com/tinyvision/SOLIDER.