الملخص

نقترح نموذج InternLM-XComposer، وهو نموذج كبير للرؤية واللغة يمكّن من فهم متقدم وتكوين صور ونصوص. تتميز طبيعة نموذجنا الابتكارية بثلاث خصائص جاذبة:1) التكوين المتبادل للنص والصورة: يمكن لـ InternLM-XComposer إنشاء مقالات متماسكة ومتناسقة تدمج الصور بشكل سلس، مما يوفر تجربة قراءة أكثر جاذبية وانغماسًا. بمجرد تقديم تعليمات الكتابة، سيقوم نظامنا بإنشاء النص المقابل. يمكنه تحديد المناطق في النص حيث ستزيد الصور من قيمة المحتوى وإدراج المرشحين البصريين الأكثر ملاءمة تلقائيًا.2) الفهم مع معرفة متعددة اللغات غنية: يتم تعزيز فهم النصوص والصور من خلال التدريب على قاعدة بيانات متعددة الأوضاع ولغات واسعة النطاق مع استراتيجيات مدروسة بعناية، مما يؤدي إلى فهم عميق للمحتوى البصري.3) الأداء الرائد: يحقق نموذجنا باستمرار نتائج رائدة في مختلف المقاييس الرئيسية لنماذج الرؤية واللغة الأساسية، بما في ذلك مقاييس MME Benchmark، MMBench، MMBench-CN، Seed-Bench، CCBench (المقاييس الثقافية الصينية)، QBench و Tiny LVLM. نظرًا لعدم وجود مقاييس محددة لتقييم التكوين المتبادل للنص والصورة بشكل كمي، فقد وضعنا إجراء تقييم قوي يتضمن كلًا من البشر و GPT4-Vision (GPT4-V) لضمان الثقة. وبشكل ملفت، يحقق نموذجنا InternLM-XComposer درجات تنافسية في التكوين المتبادل للنص والصورة مقارنة بالحلول العامة مثل GPT4-V و GPT3.5.بشكل عام، يدمج InternLM-XComposer بين فهم متقدم للنصوص والصور وتكونها بشكل سلس، مما يثورة تفاعل الرؤية واللغة ويقدم رؤى وفرص جديدة. يمكن الوصول إلى سلسلة نماذج InternLM-XComposer بشكل عام عبر الرابط https://github.com/InternLM/InternLM-XComposer.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

InternLM-XComposer: نموذج لغوي بصري كبير للفهم المتقدم وتكوين النصوص والصور

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

InternLM-XComposer: نموذج لغوي بصري كبير للفهم المتقدم وتكوين النصوص والصور

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

InternLM-XComposer: نموذج لغوي بصري كبير للفهم المتقدم وتكوين النصوص والصور

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2