CoLA: الانسحاب الشرطي والكشف الثنائي القوي عن الأشياء البارزة بقيادة اللغة

المعلومات العميقة/الحرارية مفيدة للكشف عن الأشياء البارزة باستخدام الصور التقليدية RGB. ومع ذلك، في نموذج الكشف عن الأشياء البارزة ثنائي النمط (SOD)، فإن متانة النموذج ضد المدخلات الضوضائية وفقدان النمط أمر حاسم ولكنه نادرًا ما يتم دراسته. لحل هذه المشكلة، نقدم إطار العمل \textbf{Co}nditional Dropout و\textbf{LA}nguage-driven (\textbf{CoLA}) الذي يتكون من مكونين أساسيين:1) تقييم الجودة بقيادة اللغة (LQA): الاستفادة من نموذج رؤية-لغة مُدرب مسبقًا مع متعلم الدعوة، يقوم LQA بإعادة ضبط مساهمات الصورة دون الحاجة إلى شروح جودة إضافية. هذا النهج يخفف بشكل فعال تأثير المدخلات الضوضائية.2) الإفلات الشرطي (CD): طريقة تعلم تعزز قابلية التكيف للنموذج في السيناريوهات التي يفقد فيها أحد الأنماط، مع الحفاظ على أدائه تحت ظروف الأنماط الكاملة. يعمل CD كخطة تدريب قابلة للإدخال والتي تعالج فقدان النمط كظروف، مما يعزز المتانة العامة لعدة نماذج SOD ثنائية النمط. تُظهر التجارب الواسعة أن الطريقة المقترحة تتفوق على أفضل النماذج الثنائية SOD الحالية، سواء تحت ظروف الأنماط الكاملة أو الأنماط المفقودة. سيتم إطلاق الشيفرة المصدرية عند القبول.