ميني-جيميني: استخراج إمكانات النماذج متعددة الوسائط للرؤية واللغة

في هذا العمل، نقدم ميني-جيميني، إطار عمل بسيط وفعال لتعزيز نماذج اللغة والرؤية متعددة الوسائط (VLMs). رغم التقدم الذي أحرزته النماذج متعددة الوسائط في تسهيل الحوار البصري الأساسي والاستدلال، لا يزال هناك فجوة في الأداء مقارنة بالنماذج المتقدمة مثل GPT-4 وجيميني. نحاول تقليص هذه الفجوة من خلال استكشاف إمكانات النماذج متعددة الوسائط لتحقيق أداء أفضل وأعمال تدفق من أي إلى أي من ثلاثة جوانب، وهي: الرموز البصرية عالية الدقة، البيانات عالية الجودة، وإنشاء موجه بواسطة النموذج متعدد الوسائط (VLM-guided generation). لتعزيز الرموز البصرية، نقترح استخدام مشفّر بصري إضافي للتحسين عالي الدقة دون زيادة عدد الرموز البصرية. كما نقوم ببناء مجموعة بيانات عالية الجودة تعزز الفهم الدقيق للصور والإنشاء القائم على الاستدلال، مما يوسع نطاق العمليات الحالي للنماذج متعددة الوسائط. بشكل عام، يكشف ميني-جيميني عن إمكانات إضافية للنماذج متعددة الوسائط ويمنح الإطارات الحالية القدرة على فهم الصور والاستدلال والإنشاء في آن واحد. يدعم ميني-جيميني سلسلة من النماذج اللغوية الكبيرة ذات الكثافة العالية ومجموعات الخبرة (MoE) تتراوح بين 2 مليار و34 مليار معامل. وقد أثبتت قدرتها على تحقيق أداء رائد في عدة مقاييس صفرية حتى أنها تتفوق على النماذج الخاصة المتطورة. يمكن الوصول إلى الشفرة والنماذج عبر الرابط: https://github.com/dvlab-research/MiniGemini.