Command Palette
Search for a command to run...
V* : البحث البصري الموجه كآلية أساسية في نماذج LLM متعددة الوسائط
V* : البحث البصري الموجه كآلية أساسية في نماذج LLM متعددة الوسائط
Penghao Wu Saining Xie
الملخص
عندما ننظر من حولنا ونقوم بمهام معقدة، فإن طريقة رؤيتنا وعملية المعالجة المختارة لما نراه تُعد أمرًا بالغ الأهمية. ومع ذلك، فإن غياب آلية البحث البصريّة في النماذج الكبيرة متعددة الوسائط الحالية (MLLMs) يُحد من قدرتها على التركيز على التفاصيل البصرية المهمة، خاصة عند التعامل مع الصور عالية الدقة والصورة المزدحمة بصريًا. لمعالجة هذه المشكلة، نقدّم V، وهي آلية بحث بصريّة تُوجّهها نماذج اللغة الكبيرة (LLMs)، وتستخدم المعرفة العالمية الموجودة في نماذج LLMs لتمكين الاستعلام البصري بكفاءة. عند دمج هذه الآلية مع نموذج MLLM، فإنها تعزز التفكير التعاوني، والفهم السياقي، والتركيز الدقيق على عناصر بصرية محددة. يؤدي هذا التكامل إلى ظهور معمارية جديدة لنموذج MLLM تُسمّى Show, sEArch, and TelL (SEAL). ونُنشئ أيضًا VBench، وهي معيار مُصمم خصيصًا لتقييم قدرة نماذج MLLM على معالجة الصور عالية الدقة والتركيز على التفاصيل البصرية. تُبرز دراستنا الحاجة إلى دمج قدرات البحث البصري في الأنظمة متعددة الوسائط. يُمكن الوصول إلى الكود من خلال: https://github.com/penghao-wu/vstar.