مجموعة تعاونية: استرجاع الصور المركبة من خلال التعلم بالتوافق من аннотات غير دقيقة

استرجاع الصور المركبة يوسع أنظمة استرجاع الصور القائمة على المحتوى من خلال تمكين المستخدمين من البحث باستخدام صور مرجعية وعناوين تصف نيتهم. رغم التقدم الكبير في تطوير مركبات الصورة النص (Image-Text Compositors) لاستخراج الخصائص المرئية اللغوية المميزة، فقد حددنا مشكلة لم يتم الالتفات إليها حتى الآن، وهي غموض الثلاثي (Triplet Ambiguity)، والتي تعوق استخراج الخصائص بشكل قوي. يشير غموض الثلاثي إلى نوع من الغموض الدلالي الذي يحدث بين الصورة المرجعية والعنوان النسبي والصورة الهدف. وهو يعود أساساً إلى التمثيل المحدود للنص المعَنون، مما يؤدي إلى وجود العديد من الثلاثيات الضوضائية حيث يمكن ربط صور مرشحة متعددة وغير متشابهة بصرياً بالزوج المرجعي نفسه (أي صورة مرجعية + عنوان نسبي).لحل هذه التحديات، نقترح شبكة الإجماع (Consensus Network - Css-Net)، مستوحاة من المفهوم النفسي القائل بأن الجماعات تتفوق على الأفراد. تتكون شبكة الإجماع من مكونين أساسيين: (1) وحدة الإجماع التي تحتوي على أربعة مركبات مختلفة، كل منها يولد تضمينات صورة-نص متميزة، مما يعزز استخراج الخصائص التكميلية ويقلل الاعتماد على أي مركب واحد محتمل أن يكون متحيزاً؛ (2) خسارة انحراف كولباك ليبلر (Kullback-Leibler Divergence Loss) التي تشجع على تعلم التفاعلات بين المركبات لتعزيز النتائج الإجماعية.خلال التقييم، يتم دمج قرارات الأربعة مركبات عبر نظام وزني، مما يزيد من الاتفاق العام. وعلى مجموعة البيانات القياسية، وخاصة FashionIQ، تظهر شبكة الإجماع تحسينات واضحة. وبشكل لافت للنظر، حققت زيادة كبيرة في نسبة الاسترجاع، بمقدار 2.77% في R@10 و6.67% في R@50، مما يؤكد تنافسيتها في معالجة القيود الأساسية للطرق الحالية.