HyperAIHyperAI

Command Palette

Search for a command to run...

TTD: تحسين مواءمة النص والصورة في CLIP لتخفيف التحيز الفردي للوسم

Sanghyun Jo∗1, Soohyun Ryu∗2, Sungyub Kim2, Eunho Yang2,3, and Kyungsu Kim1,4

الملخص

نحدد تحيزًا حاسمًا في النماذج المعتمدة على CLIP في العصر الحديث، والذي نطلق عليه تحيز الوسم الفردي. يظهر هذا التحيز كتركيز غير متناسب على وسم واحد (كلمة) مع إهمال الوسوم ذات الصلة الأخرى، وهو ناتج عن تمثيلات النص في CLIP التي تعطي أولوية لوسم محدد في علاقات الصورة-النص. عند تفكيك النص إلى وسوم فردية، يكون هناك غالبًا وسم واحد فقط له صلة عالية بتمثيل الصورة في CLIP، مما يؤدي إلى تحيز في صلة الوسوم. في هذه الورقة البحثية، نقدم منهجية جديدة لضبط الدقة المكونة من خطوتين، وهي ضبط الذات للنص والوسم (TTD)، لمعالجة هذا التحدي. تقوم TTD أولاً باستخراج الوسوم ذات الصلة بالصورة من النص بناءً على تشابهها مع البكسلات الأقرب، ثم تستعمل استراتيجية ضبط الذات لتوفيق الأقنعة المركبة مع القناع المستمد من النص. يضمن هذا الأسلوب توفيق الصورة والنص بشكل غير متحيز في النماذج المعتمدة على CLIP باستخدام أزواج الصورة-النص فقط دون الحاجة إلى إشراف إضافي. تقنية ours تظهر تحسينات مستقلة عن النموذج في مهام تصنيف وتقسيم متعدد الوسوم، وتتفوق على الأساليب المنافسة التي تعتمد على موارد خارجية. الرمز البرمجي متاح على https://github.com/shjo-april/TTD.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
TTD: تحسين مواءمة النص والصورة في CLIP لتخفيف التحيز الفردي للوسم | مستندات | HyperAI