HyperAIHyperAI

Command Palette

Search for a command to run...

غروما: التوكنة البصرية المحلية لترسيخ النماذج اللغوية الكبيرة متعددة الوسائط

Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi

الملخص

نقدم لكم "غروما"، وهو نموذج لغوي كبير متعدد الوسائط (MLLM) يتميز بقدراته في الإدراك البصري المحدد بدقة والمرتبط بالسياق. بالإضافة إلى فهم الصور بشكل شامل، يتقن غروما المهام على مستوى المناطق مثل وصف المناطق وربط النص بالصور. تُبنى هذه القدرات على آلية تجزئة بصرية محلية، حيث يتم تفكيك مدخلات الصورة إلى مناطق ذات اهتمام ومن ثم ترميزها إلى رموز منطقة. من خلال دمج رموز المنطقة في تعليمات المستخدم واستجابات النموذج، نمكن غروما من فهم مدخلات المناطق التي يحددها المستخدم وربط إخراجه النصي بالصور بشكل سلس. علاوة على ذلك، لتعزيز قدرة غروما على الدردشة المرتبطة بالسياق البصري، قمنا بإعداد مجموعة بيانات تعليمات مرتبطة بصرياً باستخدام تقنيات التحفيز البصري القوية ونموذج GPT-4V. عند مقارنته مع نماذج MLLM الأخرى التي تعتمد على النموذج اللغوي أو الوحدات الخارجية للتحديد المكاني، يظهر غروما أداءً أفضل بشكل مستمر في مقاييس الإشارة والربط القياسية، مما يؤكد مزايا دمج التحديد المكاني في ترميز الصور.صفحة المشروع: https://groma-mllm.github.io/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp