Command Palette
Search for a command to run...
كوجفليم 2: نماذج اللغة البصرية لفهم الصور والفيديوهات
كوجفليم 2: نماذج اللغة البصرية لفهم الصور والفيديوهات
الملخص
نبدأ بـ VisualGLM و CogVLM، ونواصل استكشاف نماذج الترجمة البصرية واللغوية (VLMs) في سعيٍ نحو تحسين دمج الرؤية واللغة، وتطوير هياكل فعّالة ذات دقة عالية، وتوسيع نطاق الوسائط والتطبيقات. هنا نُقدّم عائلة CogVLM2، الجيل الجديد من نماذج الترجمة البصرية واللغوية المُخصّصة لفهم الصور والفيديوهات، وتشمل: CogVLM2 و CogVLM2-Video و GLM-4V.بصفتها نموذجًا لفهم الصور، ترث CogVLM2 الهيكل المُختص بالرؤية مع تحسينات في وصفيات التدريب خلال مراحل التدريب المُسبق والتدريج اللاحق، وتدعم دخول صور بدقة تصل إلى 1344 × 1344 بكسل.أما كنموذج لفهم الفيديو، فإن CogVLM2-Video تدمج مدخلات متعددة الإطارات مع تزامن زمني (timestamps)، وتقترح منهجية تلقائية لبناء بيانات التموضع الزمني.ومن الجدير بالذكر أن عائلة CogVLM2 حققت نتائج مُتقدمة على مستوى الحد الأقصى (SOTA) في معايير مثل MMBench و MM-Vet و TextVQA و MVBench و VCGBench.جميع النماذج متاحة مفتوحة المصدر عبر الرابطين: https://github.com/THUDM/CogVLM2 و https://github.com/THUDM/GLM-4، مما يُسهم في دفع عجلة التطور في هذا المجال.