HyperAIHyperAI

Command Palette

Search for a command to run...

تدريب النص فقط لإضافة التعليقات التوضيحية للصور باستخدام CLIP المُحقن بالضوضاء

David Nukrai Ron Mokady Amir Globerson

الملخص

نعتبر مهمة إضافة التسميات إلى الصور باستخدام نموذج CLIP فقط وبيانات نصية إضافية أثناء التدريب، دون الحاجة إلى صور مرفقة بتسميات إضافية. يعتمد نهجنا على حقيقة أن CLIP يتم تدريبه لجعل التمثيلات البصرية والنصية متشابهة. لذلك، نحتاج فقط إلى تعلم كيفية تحويل التمثيلات النصية لـ CLIP مرة أخرى إلى النص، ويمكننا تحقيق ذلك من خلال تعلم مفكك (decoder) للشفرة النصية الثابتة لـ CLIP باستخدام النص فقط. نعتقد أن هذه الفكرة "تقريبًا صحيحة" بسبب وجود فجوة بين فضاءات التمثيل، ونقترح تصحيح هذا عبر حقن الضوضاء أثناء التدريب. نثبت فعالية نهجنا من خلال عرض أحدث النتائج في مجال إضافة التسميات إلى الصور بدون تدريب مسبق على أربع مقاييس، بما في ذلك تحويل الأسلوب. يمكن الحصول على الكود والبيانات والنماذج من GitHub.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp