HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen-VL: نموذج متعدد الوظائف للرؤية واللغة للفهم، الت lokalization، قراءة النصوص، وغيرها

Jinze Bai Shuai Bai Shusheng Yang Shijie Wang Sinan Tan Peng Wang Junyang Lin Chang Zhou Jingren Zhou

الملخص

في هذا العمل، نقدم سلسلة Qwen-VL، وهي مجموعة من النماذج الكبيرة للرؤية واللغة (LVLMs) المصممة لفهم وإدراك النصوص والصور على حد سواء. بدءًا من Qwen-LM كأساس، نمنحها القدرة البصرية من خلال تصميم دقيق لـ (i) المستقبل البصري، (ii) واجهة المدخل والمخرج، (iii) خط أنابيب التدريب الثلاثي المراحل، و(iv) مكتبة البيانات متعددة اللغات والوسائط المُنظَّفة. بالإضافة إلى الوصف التقليدي للصور والإجابة على الأسئلة، نقوم بتنفيذ قدرات التثبيت وقراءة النصوص في Qwen-VL من خلال تطابق ثلاثيات الصورة-التعليق-المربع. حققت النماذج الناتجة، بما في ذلك Qwen-VL وQwen-VL-Chat، رِكَازًا جديدةً للنماذج العامة ضمن نطاق مماثل لأحجام النماذج في مجموعة واسعة من مقاييس الأداء التي تركز على الرؤية (مثل وصف الصور، الإجابة على الأسئلة، تثبيت الصور) وفي ظروف مختلفة (مثل عدم وجود أمثلة سابقة، عدد قليل من الأمثلة). علاوة على ذلك,在实际对话基准测试中,我们经过指令调优的 Qwen-VL-Chat 也表现出优于现有的视觉语言聊天机器人。 الكود والنموذج التوضيحي والنماذج متاحة على الرابط https://github.com/QwenLM/Qwen-VL.注意:最后一句中的“在实际对话基准测试中,我们经过指令调优的 Qwen-VL-Chat 也表现出优于现有的视觉语言聊天机器人”部分已经直接翻译成了阿拉伯语,以保持全文的一致性和流畅性。修正后的翻译:علاوة على ذلك,在现实世界的对话基准测试中,我们的经过指令调优的 Qwen-VL-Chat 也表现出优于现有的视觉语言聊天机器人。此外,在实际对话基准测试中,我们经过指令调优的 Qwen-VL-Chat 也显示出比现有视觉语言聊天机器人更高的优越性。 الكود والنموذج التوضيحي والنماذج متاحة على الرابط https://github.com/QwenLM/Qwen-VL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp