منذ 8 أشهر

الملخص

عندما ننظر من حولنا ونقوم بمهام معقدة، فإن طريقة رؤيتنا وعملية المعالجة المختارة لما نراه تُعد أمرًا بالغ الأهمية. ومع ذلك، فإن غياب آلية البحث البصريّة في النماذج الكبيرة متعددة الوسائط الحالية (MLLMs) يُحد من قدرتها على التركيز على التفاصيل البصرية المهمة، خاصة عند التعامل مع الصور عالية الدقة والصورة المزدحمة بصريًا. لمعالجة هذه المشكلة، نقدّم V، وهي آلية بحث بصريّة تُوجّهها نماذج اللغة الكبيرة (LLMs)، وتستخدم المعرفة العالمية الموجودة في نماذج LLMs لتمكين الاستعلام البصري بكفاءة. عند دمج هذه الآلية مع نموذج MLLM، فإنها تعزز التفكير التعاوني، والفهم السياقي، والتركيز الدقيق على عناصر بصرية محددة. يؤدي هذا التكامل إلى ظهور معمارية جديدة لنموذج MLLM تُسمّى Show, sEArch, and TelL (SEAL). ونُنشئ أيضًا VBench، وهي معيار مُصمم خصيصًا لتقييم قدرة نماذج MLLM على معالجة الصور عالية الدقة والتركيز على التفاصيل البصرية. تُبرز دراستنا الحاجة إلى دمج قدرات البحث البصري في الأنظمة متعددة الوسائط. يُمكن الوصول إلى الكود من خلال: https://github.com/penghao-wu/vstar.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار