HyperAIHyperAI

Command Palette

Search for a command to run...

PromptCap: كتابة وصف صور موجهة بالـ Prompt واعية بالمهام

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

الملخص

الإجابة على الأسئلة البصرية القائمة على المعرفة (VQA) تتطلب أسئلة تتطلب معرفة عالمية تتجاوز ما هو موضح في الصورة للحصول على إجابة صحيحة. تُعد النماذج اللغوية الكبيرة (LMs) مثل GPT-3 مفيدة بشكل خاص في هذا المهمة بفضل قدرتها القوية على استرجاع المعرفة والاستدلال. لتمكين النموذج اللغوي من فهم الصور، استخدمت الدراسات السابقة نموذجًا لوصف الصور (captioning) لتحويل الصور إلى نصوص. ومع ذلك، عند تلخيص صورة في جملة وصف واحدة، غالبًا ما تكون الكيانات البصرية التي يجب وصفها غير محددة بدقة. وغالبًا ما تفوت العناوين العامة للصور التفاصيل البصرية الأساسية التي يحتاجها النموذج اللغوي للإجابة بشكل صحيح على الأسئلة البصرية. ولحل هذه التحديات، نقترح نموذجًا يُسمى PromptCap (الوصف الصوتي الموجه بالتحفيز)، وهو نموذج وصف صور مصمم ليكون رابطًا أفضل بين الصور والنماذج اللغوية البيضاء (black-box LMs). على عكس العناوين العامة، يأخذ PromptCap مُحفِّزًا بلغة طبيعية للتحكم في الكيانات البصرية التي يتم وصفها في النص الناتج. ويحتوي هذا المُحفِّز على سؤال يجب أن يساعد الوصف في الإجابة عليه. ولتجنب الحاجة إلى تسمية إضافية، يتم تدريب PromptCap باستخدام أمثلة تم إنشاؤها باستخدام GPT-3 وبيانات موجودة. نُظهر فعالية PromptCap في خط أنابيب موجودة، حيث يتم تحفيز GPT-3 باستخدام عناوين الصور لأداء مهمة VQA. ويتفوق PromptCap على العناوين العامة بفارق كبير، ويحقق دقة منافسة للحالة الراهنة في مهام VQA القائمة على المعرفة (60.4% على OK-VQA و59.6% على A-OKVQA). كما تُظهر النتائج بدون تدريب (zero-shot) على WebQA أن PromptCap يُظهر أداءً جيدًا في التعميم على مجالات لم يُرَ من قبل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
PromptCap: كتابة وصف صور موجهة بالـ Prompt واعية بالمهام | مستندات | HyperAI