Command Palette
Search for a command to run...
MMTok: تكثيف التغطية متعددة الوسائط لاستنتاج فعال لنماذج الفهم البصري-اللغوي
Sixun Dong Juhua Hu Mian Zhang Ming Yin Yanjie Fu Qi Qian

الملخص
تُظهر نماذج الرؤية واللغة (VLMs) أداءً مبهرًا في فهم المحتوى البصري بناءً على تعليمات لغوية من خلال تحويل الإدخال البصري إلى رموز بصرية (vision tokens). ومع ذلك، فإن التكرار الزائد في رموز البصرية يؤدي إلى تدهور كفاءة الاستنتاج في نماذج VLMs. وعلى الرغم من اقتراح العديد من الخوارزميات لتقليل عدد رموز البصرية، فإن معظمها يعتمد فقط على معلومات أحادية الوسيلة (أي البصرية/النصية) لعملية التصفية، وتجاهل الخصائص المتعددة الوسائط المتأصلة في المهام متعددة الوسائط. علاوة على ذلك، يفتقر هذا النهج إلى معيار عام يمكن تطبيقه على وسائط مختلفة. وللتغلب على هذه القيود، نقترح في هذه الدراسة الاستفادة من رموز البصرية والنصية معًا لاختيار رموز بصرية مفيدة وفقًا لمبدأ التغطية. نبدأ بصياغة مشكلة اختيار المجموعة الجزئية كمشكلة تغطية قصوى. ثم نُحسّن مجموعة جزئية من رموز البصرية بحيث تغطي في آنٍ واحد رموز النص والمجموعة الأصلية من رموز البصرية. وأخيرًا، يمكن استخدام وكيل نموذج VLM لتحسين جودة رموز النص لدعم عملية تصفية البصرية. وقد تم تقييم الطريقة المقترحة MMTok بشكل واسع على مجموعات بيانات معيارية باستخدام نماذج VLM مختلفة. وتبين النتائج أن المعلومات البصرية والنصية مكملة لبعضها البعض، وأن دمج المعلومات المتعددة الوسائط يمكنه تجاوز الأداء المبني على وسيلة واحدة بفارق ملحوظ. وبالإضافة إلى ذلك، وباستخدام مبدأ التغطية القصوى على مجموعة بيانات POPE، حققنا تسريعًا بنسبة 1.87 مرة مع الحفاظ على 98.7% من الأداء الأصلي على نموذج LLaVA-NeXT-13B. كما تم الحفاظ على 87.7% من الأداء الأصلي على نموذج LLaVA-1.5-7B حتى مع استخدام أربع رموز بصرية فقط. وتُبرز هذه النتائج فعالية مبدأ التغطية في اختيار الرموز.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.