HyperAIHyperAI
منذ 3 أشهر

عندما لا يتناغم النص والصورة: تصحيح التحيز في نقاط التشابه بين اللغة والصورة للكشف عن الشذوذ

Adam Goodge, Bryan Hooi, Wee Siong Ng
عندما لا يتناغم النص والصورة: تصحيح التحيز في نقاط التشابه بين اللغة والصورة للكشف عن الشذوذ
الملخص

يحقق التدريب المتناقض بين اللغة والصورة (CLIP) أداءً متميزًا في مهام متعددة بعد التدريب من خلال تطابق تمثيلات المدخلات الصورية والنصية، ويُعد واعدًا جدًا في مجال كشف الشذوذ. ومع ذلك، تُظهر تجاربنا التجريبية أن تمثيلات المدخلات النصية تُجمّع بشكل غير متوقع في كثافات ضيقة جدًا، بعيدة جدًا عن تمثيلات الصور، وهو ما يتعارض مع هدف التدريب المتناقض للنموذج الذي يهدف إلى تطابق أزواج المدخلات الصورية والنصية. نُظهر أن هذه الظاهرة تؤدي إلى ما يُعرف بـ "تحيز التشابه" – حيث تحدث أخطاء من النوعين الخاطئ السلبي والخاطئ الإيجابي بسبب التحيز في قيم التشابه بين الصور وتمثيلات النصوص المرتبطة بالتصنيف الطبيعي. لمعالجة هذا التحيز، نقترح منهجية جديدة تُسمى BLISS، والتي تأخذ بعين الاعتبار هذا التحيز في التشابه مباشرة من خلال استخدام مجموعة ثانوية خارجية من المدخلات النصية. تتميز BLISS ببساطتها، ولا تتطلب افتراضات قوية حول سلوك الشذوذ، ولا تُستهلك عملية تدريب مكلفة، كما تتفوّق بشكل كبير على الطرق الأساسية في مجموعات بيانات الصور القياسية، حتى عند توفر كمية محدودة جدًا من البيانات الطبيعية.