HyperAIHyperAI

Command Palette

Search for a command to run...

هل يمكن نماذج الرؤية واللغة المُدرَّبة مسبقًا الإجابة على أسئلة تبحث عن معلومات بصرية؟

Yang Chen Hexiang Hu Yi Luan Haitian Sun Soravit Changpinyo Alan Ritter Ming-Wei Chang

الملخص

أظهرت النماذج المُدرَّبة مسبقًا في الرؤية واللغة قدرات متقدمة على مستوى الحالة الحالية في المهام الحالية المتعلقة بالصور والنصوص، بما في ذلك الإجابة على الأسئلة البصرية. ومع ذلك، لا يزال غير واضح ما إذا كانت هذه النماذج تمتلك القدرة على الإجابة على أسئلة لا تستدعي فقط استخلاص المحتوى البصري، بل تتطلب معرفة عميقة وبحثًا معلوماتيًا. في هذه الدراسة، نقدم InfoSeek، وهي مجموعة بيانات للإجابة على الأسئلة البصرية مصممة خصيصًا للأسئلة التي تهدف إلى الاستفادة المعلوماتية ولا يمكن الإجابة عنها باستخدام المعرفة الشائعة وحدها. باستخدام InfoSeek، نقوم بتحليل مجموعة متنوعة من النماذج المُدرَّبة مسبقًا للإجابة على الأسئلة البصرية، ونستخلص رؤى حول خصائصها. تُظهر نتائجنا أن النماذج متعددة الوسائط المُدرَّبة مسبقًا الأكثر تقدمًا (مثل PaLI-X و BLIP2) تواجه صعوبات في الإجابة على الأسئلة البصرية التي تستهدف المعلومات، ولكن التدريب المخصص (fine-tuning) على مجموعة بيانات InfoSeek يُحفز هذه النماذج على استخدام معرفة دقيقة تم تعلُّمها أثناء مرحلة التدريب المسبق. علاوة على ذلك، نُظهر أن التعرف الدقيق على الكيانات البصرية يمكن أن يُحسّن الأداء على InfoSeek من خلال استرجاع الوثائق ذات الصلة، مما يُشير إلى وجود مجال واسع للتحسين.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp