HyperAIHyperAI
منذ 2 أشهر

تدريب النص فقط لإضافة التعليقات التوضيحية للصور باستخدام CLIP المُحقن بالضوضاء

David Nukrai; Ron Mokady; Amir Globerson
تدريب النص فقط لإضافة التعليقات التوضيحية للصور باستخدام CLIP المُحقن بالضوضاء
الملخص

نعتبر مهمة إضافة التسميات إلى الصور باستخدام نموذج CLIP فقط وبيانات نصية إضافية أثناء التدريب، دون الحاجة إلى صور مرفقة بتسميات إضافية. يعتمد نهجنا على حقيقة أن CLIP يتم تدريبه لجعل التمثيلات البصرية والنصية متشابهة. لذلك، نحتاج فقط إلى تعلم كيفية تحويل التمثيلات النصية لـ CLIP مرة أخرى إلى النص، ويمكننا تحقيق ذلك من خلال تعلم مفكك (decoder) للشفرة النصية الثابتة لـ CLIP باستخدام النص فقط. نعتقد أن هذه الفكرة "تقريبًا صحيحة" بسبب وجود فجوة بين فضاءات التمثيل، ونقترح تصحيح هذا عبر حقن الضوضاء أثناء التدريب. نثبت فعالية نهجنا من خلال عرض أحدث النتائج في مجال إضافة التسميات إلى الصور بدون تدريب مسبق على أربع مقاييس، بما في ذلك تحويل الأسلوب. يمكن الحصول على الكود والبيانات والنماذج من GitHub.

تدريب النص فقط لإضافة التعليقات التوضيحية للصور باستخدام CLIP المُحقن بالضوضاء | أحدث الأوراق البحثية | HyperAI