HyperAIHyperAI
منذ 11 أيام

الإذاعة الذكية للرسائل القائمة على المعنى لتحسين التكيّف غير المراقب للنطاق

Xin Li, Cuiling Lan, Guoqiang Wei, Zhibo Chen
الإذاعة الذكية للرسائل القائمة على المعنى لتحسين التكيّف غير المراقب للنطاق
الملخص

أظهرت نماذج التحويل البصري (Vision Transformer) إمكانات كبيرة في مجموعة واسعة من المهام البصرية. ومع ذلك، فإنها تعاني أيضًا بشكل لا مفر منه من ضعف القدرة على التعميم عند حدوث انزياح في التوزيع أثناء الاختبار (أي بيانات خارج التوزيع). لمعالجة هذه المشكلة، نقترح طريقة جديدة تُسمى "إذاعة الرسائل الواعية بالمعنى" (Semantic-aware Message Broadcasting - SAMB)، والتي تتيح تطابقًا مميزًا ومرنًا للسمات في تكييف المجال غير المراقب (Unsupervised Domain Adaptation - UDA). وبشكل خاص، ندرس وحدة الانتباه في نموذج التحويل البصري، ونلاحظ أن فضاء التطابق المستخدم بواسطة رمز الفئة العالمي الواحد يفتقر إلى المرونة الكافية، حيث يتفاعل مع جميع رموز الصورة بنفس الطريقة، متجاهلاً المعاني الغنية المختلفة في مناطق الصورة المختلفة. في هذه الدراسة، نسعى إلى تعزيز ثراء سمات التطابق من خلال تمكين إذاعة رسائل متكيفة مع المعنى. وبشكل خاص، نُدخل مجموعة من الرموز المُدرَّسة (group tokens) كعُقد لجمع المعلومات العالمية من جميع رموز الصورة، مع تشجيع كل رمز من هذه الرموز على التركيز التكيفي على إذاعة الرسائل إلى مناطق معنوية مختلفة. وبهذا الشكل، تُشجع إذاعة الرسائل لدينا الرموز المجموعة على تعلُّم معلومات أكثر إفادة وتنوعًا، مما يُسهم في تحسين تطابق المجال. علاوةً على ذلك، قمنا بدراسة منهجية لتأثيرات تطابق السمات القائمة على التهديد (Adversarial-based Feature Alignment - ADA) وتدريب ذاتي قائمة على التسميات الوهمية (Pseudo-label based Self-training - PST) في سياق UDA. ووجدنا أن استراتيجية تدريب ثنائية المراحل البسيطة، التي تجمع بين ADA وPST، يمكن أن تُحسّن بشكل إضافي قدرة نموذج التحويل البصري على التكييف. وأظهرت التجارب الواسعة على مجموعات بيانات DomainNet وOfficeHome وVisDA-2017 فعالية طرقنا في تكييف المجال غير المراقب.

الإذاعة الذكية للرسائل القائمة على المعنى لتحسين التكيّف غير المراقب للنطاق | أحدث الأوراق البحثية | HyperAI