InternLM-XComposer-2.5: نموذج لغوي بصري كبير متعدد الاستخدامات يدعم المدخلات والمخرجات السياقية الطويلة

نقدم نموذج اللغة البصرية المتنوعة InternLM-XComposer-2.5 (IXC-2.5)، الذي يدعم الإدخال والإخراج السياقي الطويل. يتميز IXC-2.5 بتفوقه في مجموعة متنوعة من تطبيقات فهم وتكوين النصوص والصور، حيث يصل إلى مستوى قدرات GPT-4V مع مجرد خلفية نموذج لغوي كبير (LLM) بحجم 7 مليار معلمة. تم تدريبه باستخدام 24 ألف سياق متداخل من الصور والنصوص، ويمكنه التوسع بشكل سلس إلى سياقات طويلة تبلغ 96 ألف عبر استيفاء RoPE (RoPE). هذه القدرة على التعامل مع السياقات الطويلة تسمح لـ IXC-2.5 بالتفوق في المهام التي تتطلب سياقات إدخال وإخراج واسعة.مقارنةً بإصداره السابق 2.0، يحتوي InternLM-XComposer-2.5 على ثلاثة تحسينات رئيسية في فهم اللغة البصرية: (1) الفهم بدقة فائقة (Ultra-High Resolution Understanding)، (2) الفهم الدقيق للفيديو (Fine-Grained Video Understanding)، و(3) الحوار المتعدد الأدوار والصور (Multi-Turn Multi-Image Dialogue). بالإضافة إلى الفهم، يتم توسيع نطاق استخدام IXC-2.5 ليشمل تطبيقين جذابين باستخدام معلمات LoRA الإضافية لتكوين النصوص والصور: (1) تصميم صفحات الويب، و(2) تكوين مقالات نصية-بصرية عالية الجودة.تم تقييم InternLM-XComposer-2.5 على 28 مقاييس أداء، حيث أظهر تفوقًا على النماذج المفتوحة المصدر الرائدة حاليًا في 16 مقاييس. كما يتخطى أو يتنافس بشكل قريب مع GPT-4V وGemini Pro في 16 مهمة رئيسية. يمكن الوصول إلى InternLM-XComposer-2.5 بشكل عام من خلال الرابط التالي: https://github.com/InternLM/InternLM-XComposer.