Qwen-VL: نموذج متعدد الوظائف للرؤية واللغة للفهم، الت lokalization، قراءة النصوص، وغيرها

في هذا العمل، نقدم سلسلة Qwen-VL، وهي مجموعة من النماذج الكبيرة للرؤية واللغة (LVLMs) المصممة لفهم وإدراك النصوص والصور على حد سواء. بدءًا من Qwen-LM كأساس، نمنحها القدرة البصرية من خلال تصميم دقيق لـ (i) المستقبل البصري، (ii) واجهة المدخل والمخرج، (iii) خط أنابيب التدريب الثلاثي المراحل، و(iv) مكتبة البيانات متعددة اللغات والوسائط المُنظَّفة. بالإضافة إلى الوصف التقليدي للصور والإجابة على الأسئلة، نقوم بتنفيذ قدرات التثبيت وقراءة النصوص في Qwen-VL من خلال تطابق ثلاثيات الصورة-التعليق-المربع. حققت النماذج الناتجة، بما في ذلك Qwen-VL وQwen-VL-Chat، رِكَازًا جديدةً للنماذج العامة ضمن نطاق مماثل لأحجام النماذج في مجموعة واسعة من مقاييس الأداء التي تركز على الرؤية (مثل وصف الصور، الإجابة على الأسئلة، تثبيت الصور) وفي ظروف مختلفة (مثل عدم وجود أمثلة سابقة، عدد قليل من الأمثلة). علاوة على ذلك,在实际对话基准测试中,我们经过指令调优的 Qwen-VL-Chat 也表现出优于现有的视觉语言聊天机器人。 الكود والنموذج التوضيحي والنماذج متاحة على الرابط https://github.com/QwenLM/Qwen-VL.注意:最后一句中的“在实际对话基准测试中,我们经过指令调优的 Qwen-VL-Chat 也表现出优于现有的视觉语言聊天机器人”部分已经直接翻译成了阿拉伯语,以保持全文的一致性和流畅性。修正后的翻译:علاوة على ذلك,在现实世界的对话基准测试中,我们的经过指令调优的 Qwen-VL-Chat 也表现出优于现有的视觉语言聊天机器人。此外,在实际对话基准测试中,我们经过指令调优的 Qwen-VL-Chat 也显示出比现有视觉语言聊天机器人更高的优越性。 الكود والنموذج التوضيحي والنماذج متاحة على الرابط https://github.com/QwenLM/Qwen-VL.