HyperAIHyperAI

Command Palette

Search for a command to run...

V* : البحث البصري الموجه كآلية أساسية في نماذج LLM متعددة الوسائط

Penghao Wu Saining Xie

الملخص

عندما ننظر من حولنا ونقوم بمهام معقدة، فإن طريقة رؤيتنا وعملية المعالجة المختارة لما نراه تُعد أمرًا بالغ الأهمية. ومع ذلك، فإن غياب آلية البحث البصريّة في النماذج الكبيرة متعددة الوسائط الحالية (MLLMs) يُحد من قدرتها على التركيز على التفاصيل البصرية المهمة، خاصة عند التعامل مع الصور عالية الدقة والصورة المزدحمة بصريًا. لمعالجة هذه المشكلة، نقدّم V، وهي آلية بحث بصريّة تُوجّهها نماذج اللغة الكبيرة (LLMs)، وتستخدم المعرفة العالمية الموجودة في نماذج LLMs لتمكين الاستعلام البصري بكفاءة. عند دمج هذه الآلية مع نموذج MLLM، فإنها تعزز التفكير التعاوني، والفهم السياقي، والتركيز الدقيق على عناصر بصرية محددة. يؤدي هذا التكامل إلى ظهور معمارية جديدة لنموذج MLLM تُسمّى Show, sEArch, and TelL (SEAL). ونُنشئ أيضًا VBench، وهي معيار مُصمم خصيصًا لتقييم قدرة نماذج MLLM على معالجة الصور عالية الدقة والتركيز على التفاصيل البصرية. تُبرز دراستنا الحاجة إلى دمج قدرات البحث البصري في الأنظمة متعددة الوسائط. يُمكن الوصول إلى الكود من خلال: https://github.com/penghao-wu/vstar.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
V* : البحث البصري الموجه كآلية أساسية في نماذج LLM متعددة الوسائط | مستندات | HyperAI