HyperAIHyperAI

Command Palette

Search for a command to run...

عندما لا يتناغم النص والصورة: تصحيح التحيز في نقاط التشابه بين اللغة والصورة للكشف عن الشذوذ

Adam Goodge Bryan Hooi Wee Siong Ng

الملخص

يحقق التدريب المتناقض بين اللغة والصورة (CLIP) أداءً متميزًا في مهام متعددة بعد التدريب من خلال تطابق تمثيلات المدخلات الصورية والنصية، ويُعد واعدًا جدًا في مجال كشف الشذوذ. ومع ذلك، تُظهر تجاربنا التجريبية أن تمثيلات المدخلات النصية تُجمّع بشكل غير متوقع في كثافات ضيقة جدًا، بعيدة جدًا عن تمثيلات الصور، وهو ما يتعارض مع هدف التدريب المتناقض للنموذج الذي يهدف إلى تطابق أزواج المدخلات الصورية والنصية. نُظهر أن هذه الظاهرة تؤدي إلى ما يُعرف بـ "تحيز التشابه" – حيث تحدث أخطاء من النوعين الخاطئ السلبي والخاطئ الإيجابي بسبب التحيز في قيم التشابه بين الصور وتمثيلات النصوص المرتبطة بالتصنيف الطبيعي. لمعالجة هذا التحيز، نقترح منهجية جديدة تُسمى BLISS، والتي تأخذ بعين الاعتبار هذا التحيز في التشابه مباشرة من خلال استخدام مجموعة ثانوية خارجية من المدخلات النصية. تتميز BLISS ببساطتها، ولا تتطلب افتراضات قوية حول سلوك الشذوذ، ولا تُستهلك عملية تدريب مكلفة، كما تتفوّق بشكل كبير على الطرق الأساسية في مجموعات بيانات الصور القياسية، حتى عند توفر كمية محدودة جدًا من البيانات الطبيعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp