HyperAIHyperAI
منذ 18 أيام

هل يمكن نماذج الرؤية واللغة المُدرَّبة مسبقًا الإجابة على أسئلة تبحث عن معلومات بصرية؟

Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang
هل يمكن نماذج الرؤية واللغة المُدرَّبة مسبقًا الإجابة على أسئلة تبحث عن معلومات بصرية؟
الملخص

أظهرت النماذج المُدرَّبة مسبقًا في الرؤية واللغة قدرات متقدمة على مستوى الحالة الحالية في المهام الحالية المتعلقة بالصور والنصوص، بما في ذلك الإجابة على الأسئلة البصرية. ومع ذلك، لا يزال غير واضح ما إذا كانت هذه النماذج تمتلك القدرة على الإجابة على أسئلة لا تستدعي فقط استخلاص المحتوى البصري، بل تتطلب معرفة عميقة وبحثًا معلوماتيًا. في هذه الدراسة، نقدم InfoSeek، وهي مجموعة بيانات للإجابة على الأسئلة البصرية مصممة خصيصًا للأسئلة التي تهدف إلى الاستفادة المعلوماتية ولا يمكن الإجابة عنها باستخدام المعرفة الشائعة وحدها. باستخدام InfoSeek، نقوم بتحليل مجموعة متنوعة من النماذج المُدرَّبة مسبقًا للإجابة على الأسئلة البصرية، ونستخلص رؤى حول خصائصها. تُظهر نتائجنا أن النماذج متعددة الوسائط المُدرَّبة مسبقًا الأكثر تقدمًا (مثل PaLI-X و BLIP2) تواجه صعوبات في الإجابة على الأسئلة البصرية التي تستهدف المعلومات، ولكن التدريب المخصص (fine-tuning) على مجموعة بيانات InfoSeek يُحفز هذه النماذج على استخدام معرفة دقيقة تم تعلُّمها أثناء مرحلة التدريب المسبق. علاوة على ذلك، نُظهر أن التعرف الدقيق على الكيانات البصرية يمكن أن يُحسّن الأداء على InfoSeek من خلال استرجاع الوثائق ذات الصلة، مما يُشير إلى وجود مجال واسع للتحسين.

هل يمكن نماذج الرؤية واللغة المُدرَّبة مسبقًا الإجابة على أسئلة تبحث عن معلومات بصرية؟ | أحدث الأوراق البحثية | HyperAI