Command Palette
Search for a command to run...
InternLM-XComposer-2.5: نموذج لغوي بصري كبير متعدد الاستخدامات يدعم الإدخال والإخراج الطويلان.
InternLM-XComposer-2.5: نموذج لغوي بصري كبير متعدد الاستخدامات يدعم الإدخال والإخراج الطويلان.
الملخص
نُقدِّم نموذج InternLM-XComposer-2.5 (IXC-2.5)، وهو نموذج متعدد الاستخدامات لغة-صورة ذكي بحجم كبير، يدعم إدخالاً وناتجاً بسياق طويل. يُظهر IXC-2.5 أداءً متميزاً في مهام متعددة تتعلق بفهم وتركيب النصوص والصور، ويحقق قدرات تُقاس بمستوى GPT-4V، وباستخدام نموذج لغة خلفي (LLM) بحجم 7B فقط. تم تدريبه على 24 ألف سياق مُتداخل من النصوص والصور، ويمكنه التمديد السلس إلى سياقات طويلة تصل إلى 96 ألف وحدة باستخدام تقنية استخلاص RoPE. تُمكّن هذه القدرة على التعامل مع السياقات الطويلة IXC-2.5 من التفوق في المهام التي تتطلب مدخلات ونواتج بسياق واسع. مقارنةً بالإصدار السابق 2.0، يُقدِّم InternLM-XComposer-2.5 ثلاث تحسينات رئيسية في فهم اللغة والصورة: (1) فهم دقيق للدقة العالية في الصور، (2) فهم دقيق للفيديوهات، و(3) محادثة متعددة الدورات متعددة الصور. وبالإضافة إلى قدرات الفهم، يمتد IXC-2.5 إلى تطبيقيْن مُلهمين باستخدام معلمات LoRA إضافية لتكوين النصوص والصور: (1) تصميم صفحات الويب، و(2) إنشاء مقالات نصية-صورية عالية الجودة. تم تقييم IXC-2.5 على 28 معياراً، وتفوّق على النماذج المفتوحة المصدر الرائدة في 16 معياراً. كما تفوق على GPT-4V وGemini Pro أو توازَن معهما في 16 مهمة رئيسية. يُمكن الوصول إلى InternLM-XComposer-2.5 مفتوحًا للعامة من خلال الرابط: https://github.com/InternLM/InternLM-XComposer.