InternLM-XComposer: نموذج لغوي بصري كبير للفهم المتقدم وتكوين النصوص والصور

نقترح نموذج InternLM-XComposer، وهو نموذج كبير للرؤية واللغة يمكّن من فهم متقدم وتكوين صور ونصوص. تتميز طبيعة نموذجنا الابتكارية بثلاث خصائص جاذبة:1) التكوين المتبادل للنص والصورة: يمكن لـ InternLM-XComposer إنشاء مقالات متماسكة ومتناسقة تدمج الصور بشكل سلس، مما يوفر تجربة قراءة أكثر جاذبية وانغماسًا. بمجرد تقديم تعليمات الكتابة، سيقوم نظامنا بإنشاء النص المقابل. يمكنه تحديد المناطق في النص حيث ستزيد الصور من قيمة المحتوى وإدراج المرشحين البصريين الأكثر ملاءمة تلقائيًا.2) الفهم مع معرفة متعددة اللغات غنية: يتم تعزيز فهم النصوص والصور من خلال التدريب على قاعدة بيانات متعددة الأوضاع ولغات واسعة النطاق مع استراتيجيات مدروسة بعناية، مما يؤدي إلى فهم عميق للمحتوى البصري.3) الأداء الرائد: يحقق نموذجنا باستمرار نتائج رائدة في مختلف المقاييس الرئيسية لنماذج الرؤية واللغة الأساسية، بما في ذلك مقاييس MME Benchmark، MMBench، MMBench-CN، Seed-Bench، CCBench (المقاييس الثقافية الصينية)، QBench و Tiny LVLM. نظرًا لعدم وجود مقاييس محددة لتقييم التكوين المتبادل للنص والصورة بشكل كمي، فقد وضعنا إجراء تقييم قوي يتضمن كلًا من البشر و GPT4-Vision (GPT4-V) لضمان الثقة. وبشكل ملفت، يحقق نموذجنا InternLM-XComposer درجات تنافسية في التكوين المتبادل للنص والصورة مقارنة بالحلول العامة مثل GPT4-V و GPT3.5.بشكل عام، يدمج InternLM-XComposer بين فهم متقدم للنصوص والصور وتكونها بشكل سلس، مما يثورة تفاعل الرؤية واللغة ويقدم رؤى وفرص جديدة. يمكن الوصول إلى سلسلة نماذج InternLM-XComposer بشكل عام عبر الرابط https://github.com/InternLM/InternLM-XComposer.