DSSL: التعلم العميق لفصل الشخص عن البيئة المحيطة للبحث النصي عن الأشخاص

كثير من الطرق السابقة في مهام استرجاع الأشخاص بناءً على النص كانت مكرسة لتعلم خريطة فضاء مشترك ضمني، بهدف استخراج ميزات ثابتة للوسائط من كل من الوسائط البصرية والنصية. ومع ذلك، بسبب تعقيد البيانات ذات الأبعاد العالية، لا تتمكن نماذج الخرائط غير المقيدة من التقاط أدلة تمييزية كافية عن الشخص المعني بينما تتخلص من المعلومات غير المنسجمة. بشكل حدسي، يمكن تقسيم المعلومات الموجودة في البيانات البصرية إلى معلومات الشخص (PI) ومعلومات البيئة المحيطة (SI)، وهي معلومات متباينة ومستقلة عن بعضها البعض. لتحقيق هذا الغرض، نقترح في هذه الورقة نموذجًا جديدًا يُعرف بـ "التعلم العميق لفصل الشخص عن بيئته المحيطة" (DSSL) لاستخراج ومطابقة معلومات الشخص بكفاءة، وبالتالي تحقيق دقة استرجاع أعلى. يلعب آلية فصل وتجميع الشخص والبيئة المحيطة دورًا رئيسيًا في تحقيق فصل دقيق وكفء بين الشخص والبيئة المحيطة تحت قيد التباين المتبادل. من أجل استخدام المعلومات متعددة الوسائط والمعلومات متعددة الحبوب بشكل كافٍ لتحقيق دقة استرجاع أعلى، تم اعتماد خمسة أنماط مختلفة للمطابقة. أجريت تجارب واسعة لتقييم النموذج المقترح DSSL على مجموعة بيانات CUHK-PEDES، وهي حاليًا唯一可用的用于基于文本的人检索任务的数据集。DSSL在CUHK-PEDES上实现了最先进的性能。为了在实际场景中正确评估我们提出的DSSL,构建了一个名为“实际场景基于文本的人重新识别”(RSTPReid)的数据集,以促进未来对基于文本的人检索的研究,该数据集将公开提供。注:由于最后一句中的专有名词“Real Scenarios Text-based Person Reidentification (RSTPReid)”在阿拉伯语中没有通用译法,因此保留了英文名称并在括号中标注了缩写。以下是修正后的翻译:للتقييم الصحيح لنموذجنا المقترح DSSL في السيناريوهات الحقيقية، تم إنشاء مجموعة بيانات "إعادة التعرف على الأشخاص بناءً على النص في السيناريوهات الحقيقية" (RSTPReid) لتعزيز البحث المستقبلي حول استرجاع الأشخاص بناءً على النص، وسيكون هذا 数据集公开可用.再次修正:للتقييم الصحيح لنموذجنا المقترح DSSL في السيناريوهات الحقيقية، تم إنشاء مجموعة بيانات "إعادة التعرف على الأشخاص بناءً على النص في السيناريوهات الحقيقية" (RSTPReid) لتعزيز البحث المستقبلي حول استرجاع الأشخاص بناءً على النص، وسيكون هذا 数据集 متاح للعامة.最终版本:للتقييم الصحيح لنموذجنا المقترح DSSL في السيناريوهات الحقيقية، تم إنشاء مجموعة بيانات "إعادة التعرف على الأشخاص بناءً على النص في السيناريوهات الحقيقية" (RSTPReid) لتعزيز البحث المستقبلي حول استرجاع الأشخاص بناءً على النص، وسيكون هذا البيانات متاحًا للعامة.