منذ 6 أشهر

الملخص

الإجابة على الأسئلة البصرية القائمة على المعرفة (VQA) تتطلب أسئلة تتطلب معرفة عالمية تتجاوز ما هو موضح في الصورة للحصول على إجابة صحيحة. تُعد النماذج اللغوية الكبيرة (LMs) مثل GPT-3 مفيدة بشكل خاص في هذا المهمة بفضل قدرتها القوية على استرجاع المعرفة والاستدلال. لتمكين النموذج اللغوي من فهم الصور، استخدمت الدراسات السابقة نموذجًا لوصف الصور (captioning) لتحويل الصور إلى نصوص. ومع ذلك، عند تلخيص صورة في جملة وصف واحدة، غالبًا ما تكون الكيانات البصرية التي يجب وصفها غير محددة بدقة. وغالبًا ما تفوت العناوين العامة للصور التفاصيل البصرية الأساسية التي يحتاجها النموذج اللغوي للإجابة بشكل صحيح على الأسئلة البصرية. ولحل هذه التحديات، نقترح نموذجًا يُسمى PromptCap (الوصف الصوتي الموجه بالتحفيز)، وهو نموذج وصف صور مصمم ليكون رابطًا أفضل بين الصور والنماذج اللغوية البيضاء (black-box LMs). على عكس العناوين العامة، يأخذ PromptCap مُحفِّزًا بلغة طبيعية للتحكم في الكيانات البصرية التي يتم وصفها في النص الناتج. ويحتوي هذا المُحفِّز على سؤال يجب أن يساعد الوصف في الإجابة عليه. ولتجنب الحاجة إلى تسمية إضافية، يتم تدريب PromptCap باستخدام أمثلة تم إنشاؤها باستخدام GPT-3 وبيانات موجودة. نُظهر فعالية PromptCap في خط أنابيب موجودة، حيث يتم تحفيز GPT-3 باستخدام عناوين الصور لأداء مهمة VQA. ويتفوق PromptCap على العناوين العامة بفارق كبير، ويحقق دقة منافسة للحالة الراهنة في مهام VQA القائمة على المعرفة (60.4% على OK-VQA و59.6% على A-OKVQA). كما تُظهر النتائج بدون تدريب (zero-shot) على WebQA أن PromptCap يُظهر أداءً جيدًا في التعميم على مجالات لم يُرَ من قبل.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PromptCap: كتابة وصف صور موجهة بالـ Prompt واعية بالمهام

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PromptCap: كتابة وصف صور موجهة بالـ Prompt واعية بالمهام

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PromptCap: كتابة وصف صور موجهة بالـ Prompt واعية بالمهام

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters