غروما: التوكنة البصرية المحلية لترسيخ النماذج اللغوية الكبيرة متعددة الوسائط

نقدم لكم "غروما"، وهو نموذج لغوي كبير متعدد الوسائط (MLLM) يتميز بقدراته في الإدراك البصري المحدد بدقة والمرتبط بالسياق. بالإضافة إلى فهم الصور بشكل شامل، يتقن غروما المهام على مستوى المناطق مثل وصف المناطق وربط النص بالصور. تُبنى هذه القدرات على آلية تجزئة بصرية محلية، حيث يتم تفكيك مدخلات الصورة إلى مناطق ذات اهتمام ومن ثم ترميزها إلى رموز منطقة. من خلال دمج رموز المنطقة في تعليمات المستخدم واستجابات النموذج، نمكن غروما من فهم مدخلات المناطق التي يحددها المستخدم وربط إخراجه النصي بالصور بشكل سلس. علاوة على ذلك، لتعزيز قدرة غروما على الدردشة المرتبطة بالسياق البصري، قمنا بإعداد مجموعة بيانات تعليمات مرتبطة بصرياً باستخدام تقنيات التحفيز البصري القوية ونموذج GPT-4V. عند مقارنته مع نماذج MLLM الأخرى التي تعتمد على النموذج اللغوي أو الوحدات الخارجية للتحديد المكاني، يظهر غروما أداءً أفضل بشكل مستمر في مقاييس الإشارة والربط القياسية، مما يؤكد مزايا دمج التحديد المكاني في ترميز الصور.صفحة المشروع: https://groma-mllm.github.io/.