منذ 8 أشهر

الملخص

نقدم لكم "غروما"، وهو نموذج لغوي كبير متعدد الوسائط (MLLM) يتميز بقدراته في الإدراك البصري المحدد بدقة والمرتبط بالسياق. بالإضافة إلى فهم الصور بشكل شامل، يتقن غروما المهام على مستوى المناطق مثل وصف المناطق وربط النص بالصور. تُبنى هذه القدرات على آلية تجزئة بصرية محلية، حيث يتم تفكيك مدخلات الصورة إلى مناطق ذات اهتمام ومن ثم ترميزها إلى رموز منطقة. من خلال دمج رموز المنطقة في تعليمات المستخدم واستجابات النموذج، نمكن غروما من فهم مدخلات المناطق التي يحددها المستخدم وربط إخراجه النصي بالصور بشكل سلس. علاوة على ذلك، لتعزيز قدرة غروما على الدردشة المرتبطة بالسياق البصري، قمنا بإعداد مجموعة بيانات تعليمات مرتبطة بصرياً باستخدام تقنيات التحفيز البصري القوية ونموذج GPT-4V. عند مقارنته مع نماذج MLLM الأخرى التي تعتمد على النموذج اللغوي أو الوحدات الخارجية للتحديد المكاني، يظهر غروما أداءً أفضل بشكل مستمر في مقاييس الإشارة والربط القياسية، مما يؤكد مزايا دمج التحديد المكاني في ترميز الصور.صفحة المشروع: https://groma-mllm.github.io/.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

غروما: التوكنة البصرية المحلية لترسيخ النماذج اللغوية الكبيرة متعددة الوسائط

Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

غروما: التوكنة البصرية المحلية لترسيخ النماذج اللغوية الكبيرة متعددة الوسائط

Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

غروما: التوكنة البصرية المحلية لترسيخ النماذج اللغوية الكبيرة متعددة الوسائط

Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters