HyperAIHyperAI

Command Palette

Search for a command to run...

ميني-جيميني: استخراج إمكانات النماذج متعددة الوسائط للرؤية واللغة

Yanwei Li Yuechen Zhang Chengyao Wang Zhisheng Zhong Yixin Chen Ruihang Chu Shaoteng Liu Jiaya Jia

الملخص

في هذا العمل، نقدم ميني-جيميني، إطار عمل بسيط وفعال لتعزيز نماذج اللغة والرؤية متعددة الوسائط (VLMs). رغم التقدم الذي أحرزته النماذج متعددة الوسائط في تسهيل الحوار البصري الأساسي والاستدلال، لا يزال هناك فجوة في الأداء مقارنة بالنماذج المتقدمة مثل GPT-4 وجيميني. نحاول تقليص هذه الفجوة من خلال استكشاف إمكانات النماذج متعددة الوسائط لتحقيق أداء أفضل وأعمال تدفق من أي إلى أي من ثلاثة جوانب، وهي: الرموز البصرية عالية الدقة، البيانات عالية الجودة، وإنشاء موجه بواسطة النموذج متعدد الوسائط (VLM-guided generation). لتعزيز الرموز البصرية، نقترح استخدام مشفّر بصري إضافي للتحسين عالي الدقة دون زيادة عدد الرموز البصرية. كما نقوم ببناء مجموعة بيانات عالية الجودة تعزز الفهم الدقيق للصور والإنشاء القائم على الاستدلال، مما يوسع نطاق العمليات الحالي للنماذج متعددة الوسائط. بشكل عام، يكشف ميني-جيميني عن إمكانات إضافية للنماذج متعددة الوسائط ويمنح الإطارات الحالية القدرة على فهم الصور والاستدلال والإنشاء في آن واحد. يدعم ميني-جيميني سلسلة من النماذج اللغوية الكبيرة ذات الكثافة العالية ومجموعات الخبرة (MoE) تتراوح بين 2 مليار و34 مليار معامل. وقد أثبتت قدرتها على تحقيق أداء رائد في عدة مقاييس صفرية حتى أنها تتفوق على النماذج الخاصة المتطورة. يمكن الوصول إلى الشفرة والنماذج عبر الرابط: https://github.com/dvlab-research/MiniGemini.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp