أرجوس: تعزيز التفتيش المرئي الموجه باللغة في نماذج اللغات المتعددة الأوضاع
ARGUS: الإدراك المرتكز على الرؤية مع سلسلة الفكر المتأصل الملخص الأساسي (500 كلمة) يحاول نظام ARGUS حل مشكلة الأداء الضعيف الذي تعاني منه النماذج اللغوية متعددة الوسائط (MLLMs) عند الحاجة إلى فهم دقيق للصورة وتفسير المناطق ذات الاهتمام (RoIs). هذا النظام يقترح آلية جديدة للإدراك البصري المتأصل، وهي إطار عمل يستهدف تحسين قدرة النماذج الحالية على التعامل مع السيناريوهات التي تعتمد بشكل كبير على الرؤية. الإلهام والمفاهيم الأساسية يستند ARGUS إلى الذكاء البصري المعرفي، خاصة التمييز بين الإدراك البصري الدافع للمنبهات (غير الطوعي) والإدراك البصري الموجه لأهداف (الطوعي). في النماذج متعددة الوسائط، يظهر الإدراك البصري الدافع للمنبهات في تجزئة الصور بواسطة النماذج البصرية المدربة مسبقًا، بينما ينطوي الإدراك البصري الموجه لأهداف على التفاعل مع ميزات الصورة المحددة بواسطة اللغة داخل النموذج اللغوي. الورقة البحثية تشير إلى أن التأثيرات الواضحة للإدراك البصري الموجه باللغة تم دراستها بشكل أقل. تصميم الإطار المكودرات البصرية: يستخدم ARGUS استراتيجية خليط من خبراء الرؤية (MoVEs)، حيث يتم دمج مخرجات ثلاثة نماذج أساسية للرؤية: CLIP، ConvNeXt، وEVA-02. هذه المكودرات تلعب دورًا حاسمًا في استخراج معلومات الصورة مع الحد الأدنى من فقدان المعلومات وتوحيد الرؤية واللغة. يتم توصيل المتجهات ثنائية الأبعاد وإضافتها ثم تحويلها إلى مساحة رموز النص بواسطة مُسَوِّق شبكة ملتيمالية (MLP). مفكك LLM: يستخدم نموذج Llama مُدْرَب مسبقًا كمُفَكِّك ترانسفورمر لتنبؤ الرموز التالية. هذا النموذج يعد من أفضل النماذج اللغوية المُدْرَبة مسبقًا ويعمل على تنبأ الرموز التالية بناءً على الإدخال الحالي. عينة المنطقة ذات الاهتمام (RoI): يمكن للنموذج تنبؤ صناديق الحدود (bounding boxes) المرتبطة بالمناطق المذكورة في سؤال الإدخال. يتم تمثيل هذه الصناديق بتنسيق نصي طبيع (normalized coordinates [xmin, ymin, xmax, ymax]). تساعد الصناديق التي تم توقعها في قص المنطقة ذات الاهتمام من الصورة الإدخالية وإعادة توظيفها في العملية التالية. إعادة توظيف السياق البصري الموجه يُعدّد ARGUS أربع استراتيجيات لتوظيف المناطق ذات الاهتمام (RoIs): الانتباه الذاتي الضمني: الاستراتيجية الأساسية التي تعتمد على الانتباه الذاتي العام للنموذج اللغوي للاهتمام بالسياق البصري. لا يوجد سيطرة كبيرة على المناطق المحددة. التوجيه الضمني للصناديق: يتوقع النموذج صناديق الحدود كرموز نصية، مما يعمل كإشارة من سلسلة الفكر (CoT)، يدفع الانتباه الذاتي باتجاه RoIs دون توظيف بصري صريح. إعادة تشفير RoI بشكل صريح: يتم قص المنطقة المحددة من الصورة وإعادة معالجتها عبر مكودرات الرؤية لإنتاج مجموعة جديدة من الرموز البصرية. تُدخل هذه الطريقة إشارات محددة بالسياق ولكنها تزيد الحساب. إعادة عينة RoI بشكل صريح: بدلاً من إعادة التشفير، يتم استرجاع متجهات الصورة من مرحلة التشفير الأولية بناءً على تداخلها مع صندوق حاذي RoI. تعتمد هذه الطريقة على الرموز المخزنة لتوفير الكفاءة وتحافظ على سياق الموقع الذي قد يُفقد في معالجة إعادة التشفير. خطوات التدريب توحيد وتدريب مسبق: يتم تدريب مكودرات الرؤية ومُسَوِّق MLP على مجموعة بيانات LLaVA-595K بينما تظل النماذج اللغوية مجمدة. تتضمن هذه المرحلة توحيد خبراء الرؤية. التدريب الدقيق المشرف عليه (SFT): يتم تدريب النموذج الكامل (مكودرات الرؤية، مُسَوِّق MLP، النموذج اللغوي) على مزيج من مجموعات البيانات: Eagle1.8M (بيانات محادثة شاملة)، VCoT (بيانات سلسلة الفكر البصرية)، وبيانات التأصيل (GRIT، Shikra). هذه المرحلة تمكن النموذج من توقع صناديق RoI واستخدام سلسلة الفكر البصرية. مجموعات البيانات المستخدمة مرحلة 1 (توحيد وتدريب مسبق): تستخدم مجموعة بيانات LLaVA-595K، والتي تتكون من أزواج صورة-نص مختارة بعناية. مرحلة 2 (التدريب الدقيق المشرف عليه): تستخدم مزيجًا متنوعًا من مجموعات البيانات لضمان الأداء القوي: Eagle1.8M: مجموعة بيانات شاملة تجمع بيانات محادثة من مصادر مختلفة. VCoT: تقدم تسميات صناديق الحدود لمواقع الاهتمام مصممة خصيصًا للمهام المرتكزة على الرؤية والتفكير. مهيكلة كمحادثات متعددة الدورات تشمل توقع RoI وعلامات سلسلة الفكر البصرية. مجموعات بيانات التأصيل: مزيج من GRIT (756K زوج صورة-نص متأصل) وShikra (326K عينة مرتكزة على التأصيل البصري) لتعزيز قدرة النموذج على تأصيل المفاهيم في سيناريوهات غير مقيدة. مقاييس التقييم مهام التفكير متعددة الوسائط: يتم تقييم الأداء على معايير مختلفة تغطي المهام المرتكزة على الرؤية (V-Star, CV-Bench 2D/3D, MMVP, RealworldQA)، فهم النص (ChartQA, OCRBench, TextVQA, DocVQA)، والمهام العامة (MMMUV, MMB, SEED, IGQA). مهام تأصيل التعبير عن الإشارة: يتم تقييم قدرة النموذج على تأصيل الأشياء باستخدام مقاييس RefCOCO، RefCOCO+، وRefCOCOg. يُستخدم مؤشر الأداء [email protected]. النتائج التفكير البصري: يحقق ARGUS أداءً متفوقًا بين النماذج متعددة الوسائط العامة من الحجم والتدريب المماثل. يُظهر تحسينات كبيرة في المهام المرتكزة على الرؤية ومهمات فهم النص، مما يؤكد فعالية آليات البحث البصري الموجه وأدوات الانتباه. تأصيل الإشارة: يُظهر ARGUS أداءً قياديًا بين النماذج متعددة الوسائط العامة المماثلة ويعتبر منافسًا قويًا للمodels المتخصصة في التأصيل. هذا يدل على قوة النموذج في كل من التفكير على مستوى عالٍ والتحديد البصري الدقيق. النتائج النوعية: تُظهر الأمثلة نجاح ARGUS في أداء مهام التفكير الصعبة مع سلسلة الفكر المرتكزة على الرؤية. دراسات التحليل وتجارب التحكم تؤكد التجارب الم controled على الخيارات التصميمية: - سلسلة الفكر والتأصيل: يعزز دمج التفكير من سلسلة الفكر (CoT) الأداء بشكل مستمر. يُقدم التوظيف البصري الصريح (إعادة التشفير/إعادة العينة) مكاسب أكبر من التوجيه الضمني للصناديق. - استراتيجيات إعادة التوظيف: تتفوق كل من إعادة التشفير وإعادة العينة على الأساليب الضمنية. يعتبر إعادة العينة أفضل عمومًا بسبب الحفاظ الأفضل على السياق وقلة التحول التوزيعي، باستثناء المهام التي تتطلب تفاصيل دقيقة لأجسام صغيرة (مثل V-Star)، حيث تكون إعادة التشفير أفضل. - قدرة المكودر: تحسن المكودرات البصرية ذات القدرة الأعلى الأداء. تعتمد إعادة التشفير أقل على جودة الميزات الأولية مقارنة بإعادة العينة. - توسيع السياق: يفيد إعادة التشفير من توسيع معتدل لسياق RoI (20-40%)، مما يساعد في التعامل مع الصناديق غير الدقيقة والحالة النسبية. تؤدي إعادة العينة أداءً أفضل مع حجم الصندوق الأصلي، حيث أنها تستفيد بالفعل من الترتيبات المتكاملة للأجزاء. - MLPs غير مشتركة: استخدام MLPs منفصلة للرموز البصرية الأولية والمعادة التوظيف يحسن قليلًا أداء إعادة العينة من خلال تحسين التكيف مع توزيعات الصور/RoIs المختلفة. - كفاءة الحوسبة: تعتبر إعادة العينة أكثر كفاءة حواسيبية من إعادة التشفير، حيث تتطلب عمليات أقل ورموز بصرية إضافية أقل، مما يؤدي إلى استدلال أسرع. القيود والعمل المستقبلي يقرّ المؤلفون بعدة قيود، بما في ذلك تقييم النهج على مقياس نماذج أكبر، التنوع المحدود وتوافر بيانات سلسلة الفكر البصرية الكبيرة، وتوسيع التغطية إلى مهام مثل الكشف عن العالم المفتوح. تقييم الحدث من قبل المختصين (100 كلمة) يُعتبر ARGUS خطوة مهمة في تحسين النماذج متعددة الوسائط، حيث يوفر أدوات جديدة للتعامل مع السياق البصري بشكل أكثر دقة وكفاءة. المختصون في مجال الذكاء الاصطناعي يرون أن هذا النهج يمكن أن يساهم بشكل كبير في تطبيقات مثل الروبوتات الذكية والمساعدات البصرية والتحليل الطبي. رغم وجود بعض القيود، فإن ARGUS يفتح الباب أمام أبحاث مستقبلية واعدة في مجال الرؤية واللغة المتكاملة.
