HyperAIHyperAI

Command Palette

Search for a command to run...

كوجفليم 2: نماذج اللغة البصرية لفهم الصور والفيديوهات

الملخص

نبدأ بـ VisualGLM و CogVLM، ونواصل استكشاف نماذج الترجمة البصرية واللغوية (VLMs) في سعيٍ نحو تحسين دمج الرؤية واللغة، وتطوير هياكل فعّالة ذات دقة عالية، وتوسيع نطاق الوسائط والتطبيقات. هنا نُقدّم عائلة CogVLM2، الجيل الجديد من نماذج الترجمة البصرية واللغوية المُخصّصة لفهم الصور والفيديوهات، وتشمل: CogVLM2 و CogVLM2-Video و GLM-4V.بصفتها نموذجًا لفهم الصور، ترث CogVLM2 الهيكل المُختص بالرؤية مع تحسينات في وصفيات التدريب خلال مراحل التدريب المُسبق والتدريج اللاحق، وتدعم دخول صور بدقة تصل إلى 1344 × 1344 بكسل.أما كنموذج لفهم الفيديو، فإن CogVLM2-Video تدمج مدخلات متعددة الإطارات مع تزامن زمني (timestamps)، وتقترح منهجية تلقائية لبناء بيانات التموضع الزمني.ومن الجدير بالذكر أن عائلة CogVLM2 حققت نتائج مُتقدمة على مستوى الحد الأقصى (SOTA) في معايير مثل MMBench و MM-Vet و TextVQA و MVBench و VCGBench.جميع النماذج متاحة مفتوحة المصدر عبر الرابطين: https://github.com/THUDM/CogVLM2 و https://github.com/THUDM/GLM-4، مما يُسهم في دفع عجلة التطور في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
كوجفليم 2: نماذج اللغة البصرية لفهم الصور والفيديوهات | مستندات | HyperAI