الملخص

النماذج الكبيرة الموحدة متعددة الوسائط (LLMs) التي تمتلك القدرة على فهم وإنتاج المحتوى البصري تمثل إمكانات هائلة. ومع ذلك، تعاني النماذج المفتوحة المصدر الحالية غالبًا من تناقض في الأداء بين هاتين القدرتين. نقدم "منزانو" (Manzano)، وهي إطار عمل موحد بسيط وقابل للتوسع، يقلل بشكل كبير من هذا التناقض من خلال ربط مُشفّر صور هجين بوصفة تدريب مدروسة جيدًا. يُغذي مُشفر بصري مُشترك واحد كلاً من مُعدّلين خفيفي الوزن، اللذين يُنتجان تمثيلات مستمرة للإدراك البصري-النصي، ورموزًا منفصلة لإنتاج صور من نص داخل فضاء معنوي مشترك. ويتوقع نموذج لغة كبير ذاتي التنبؤ موحدًا معنىً عالي المستوى على شكل رموز نصية ورموز صورية، بينما يقوم لاحقًا بتحويل الرموز الصورية إلى بكسلات عبر معالج تشتت مساعد. يُتيح هذا الهيكل، جنبًا إلى جنب مع وصفة تدريب موحدة تُطبَّق على بيانات الإدراك والإنتاج، تعلمًا مشتركًا قابلاً للتوسع لكلي القدرتين. تحقق "منزانو" أفضل النتائج بين النماذج الموحدة، وتنافس النماذج المتخصصة، خاصة في تقييمات مبنية على نصوص غنية. وتوحي دراساتنا بأن التعارض بين المهام ضئيل، وأن التوسع في حجم النموذج يؤدي إلى مكاسب مستمرة، مما يؤكد صحة اختيارنا لاستخدام مُشفّر هجين.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

مانزانو: نموذج متعدد الوسائط موحد بسيط وقابل للتوسع يعتمد على معالج بصري هجين

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan17 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مانزانو: نموذج متعدد الوسائط موحد بسيط وقابل للتوسع يعتمد على معالج بصري هجين

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan17 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مانزانو: نموذج متعدد الوسائط موحد بسيط وقابل للتوسع يعتمد على معالج بصري هجين

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan17 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan

Yanghao Li Rui Qian Bowen Pan Haotian Zhang Haoshuo Huang Bowen Zhang Jialing Tong Haoxuan You Xianzhi Du Zhe Gan