HyperAIHyperAI

Command Palette

Search for a command to run...

ClipCap: بادئة CLIP للصياغة التوصيفية للصور

Ron Mokady Amir Hertz Amit H. Bermano

الملخص

تُعدّ التسمية الصورية مهمة أساسية في فهم الرؤية واللغة، حيث يقوم النموذج بتوقع وصف نصي مفيد للصورة المدخلة. في هذا البحث، نقدم نهجًا بسيطًا لمعالجة هذه المهمة. نستخدم ترميز CLIP كمقدمة للوصف، من خلال استخدام شبكة تحويل بسيطة، ثم نُدرّب نموذج لغوي دقيقًا لتكوين عناوين الصور. يحتوي النموذج المُقترح حديثًا CLIP على ميزات معنوية غنية تم تدريبها ضمن سياق نصي، مما يجعله مناسبًا بشكل مثالي لفهم الرؤية واللغة. تكمن الفكرة الأساسية لدينا في الجمع بين نموذج لغوي مُدرّب مسبقًا (GPT2) ونظام CLIP، مما يمنحنا فهمًا واسعًا للبيانات البصرية والنصية معًا. وبذلك، يكفي تدريب نموذجنا بسرعة نسبيًا لإنتاج نموذج قادر على التسمية الصورية. وبلا حاجة إلى تسميات إضافية أو تدريب مسبق، يتمكن النموذج من إنشاء عناوين ذات معنى بكفاءة لبيانات كبيرة ومتنوعة. ومن المثير للدهشة أن أسلوبنا يعمل بشكل جيد حتى عندما يتم تدريب الشبكة التحويلية فقط، بينما تبقى نماذج CLIP والنموذج اللغوي غير مُعدّلة (مجمدة)، مما يتيح بنية أخف وأقل عددًا من المعلمات القابلة للتدريب. من خلال التقييم الكمي، نُظهر أن نموذجنا يحقق نتائج مماثلة للأساليب الرائدة في المجال على مجموعتي بيانات الصعوبة المتمثلتين في Conceptual Captions وnocaps، مع أن نموذجنا أبسط، وأسرع، وأخف. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/rmokady/CLIP_prefix_caption.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp