HyperAIHyperAI
منذ 2 أشهر

InternLM-XComposer-2.5: نموذج لغوي بصري كبير متعدد الاستخدامات يدعم المدخلات والمخرجات السياقية الطويلة

Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
InternLM-XComposer-2.5: نموذج لغوي بصري كبير متعدد الاستخدامات يدعم المدخلات والمخرجات السياقية الطويلة
الملخص

نقدم نموذج اللغة البصرية المتنوعة InternLM-XComposer-2.5 (IXC-2.5)، الذي يدعم الإدخال والإخراج السياقي الطويل. يتميز IXC-2.5 بتفوقه في مجموعة متنوعة من تطبيقات فهم وتكوين النصوص والصور، حيث يصل إلى مستوى قدرات GPT-4V مع مجرد خلفية نموذج لغوي كبير (LLM) بحجم 7 مليار معلمة. تم تدريبه باستخدام 24 ألف سياق متداخل من الصور والنصوص، ويمكنه التوسع بشكل سلس إلى سياقات طويلة تبلغ 96 ألف عبر استيفاء RoPE (RoPE). هذه القدرة على التعامل مع السياقات الطويلة تسمح لـ IXC-2.5 بالتفوق في المهام التي تتطلب سياقات إدخال وإخراج واسعة.مقارنةً بإصداره السابق 2.0، يحتوي InternLM-XComposer-2.5 على ثلاثة تحسينات رئيسية في فهم اللغة البصرية: (1) الفهم بدقة فائقة (Ultra-High Resolution Understanding)، (2) الفهم الدقيق للفيديو (Fine-Grained Video Understanding)، و(3) الحوار المتعدد الأدوار والصور (Multi-Turn Multi-Image Dialogue). بالإضافة إلى الفهم، يتم توسيع نطاق استخدام IXC-2.5 ليشمل تطبيقين جذابين باستخدام معلمات LoRA الإضافية لتكوين النصوص والصور: (1) تصميم صفحات الويب، و(2) تكوين مقالات نصية-بصرية عالية الجودة.تم تقييم InternLM-XComposer-2.5 على 28 مقاييس أداء، حيث أظهر تفوقًا على النماذج المفتوحة المصدر الرائدة حاليًا في 16 مقاييس. كما يتخطى أو يتنافس بشكل قريب مع GPT-4V وGemini Pro في 16 مهمة رئيسية. يمكن الوصول إلى InternLM-XComposer-2.5 بشكل عام من خلال الرابط التالي: https://github.com/InternLM/InternLM-XComposer.

InternLM-XComposer-2.5: نموذج لغوي بصري كبير متعدد الاستخدامات يدعم المدخلات والمخرجات السياقية الطويلة | أحدث الأوراق البحثية | HyperAI