HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

مانزانو: نموذج متعدد الوسائط موحد بسيط وقابل للتوسع يعتمد على معالج بصري هجين

مانزانو: نموذج متعدد الوسائط موحد بسيط وقابل للتوسع يعتمد على معالج بصري هجين

الملخص

النماذج الكبيرة الموحدة متعددة الوسائط (LLMs) التي تمتلك القدرة على فهم وإنتاج المحتوى البصري تمثل إمكانات هائلة. ومع ذلك، تعاني النماذج المفتوحة المصدر الحالية غالبًا من تناقض في الأداء بين هاتين القدرتين. نقدم "منزانو" (Manzano)، وهي إطار عمل موحد بسيط وقابل للتوسع، يقلل بشكل كبير من هذا التناقض من خلال ربط مُشفّر صور هجين بوصفة تدريب مدروسة جيدًا. يُغذي مُشفر بصري مُشترك واحد كلاً من مُعدّلين خفيفي الوزن، اللذين يُنتجان تمثيلات مستمرة للإدراك البصري-النصي، ورموزًا منفصلة لإنتاج صور من نص داخل فضاء معنوي مشترك. ويتوقع نموذج لغة كبير ذاتي التنبؤ موحدًا معنىً عالي المستوى على شكل رموز نصية ورموز صورية، بينما يقوم لاحقًا بتحويل الرموز الصورية إلى بكسلات عبر معالج تشتت مساعد. يُتيح هذا الهيكل، جنبًا إلى جنب مع وصفة تدريب موحدة تُطبَّق على بيانات الإدراك والإنتاج، تعلمًا مشتركًا قابلاً للتوسع لكلي القدرتين. تحقق "منزانو" أفضل النتائج بين النماذج الموحدة، وتنافس النماذج المتخصصة، خاصة في تقييمات مبنية على نصوص غنية. وتوحي دراساتنا بأن التعارض بين المهام ضئيل، وأن التوسع في حجم النموذج يؤدي إلى مكاسب مستمرة، مما يؤكد صحة اختيارنا لاستخدام مُشفّر هجين.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مانزانو: نموذج متعدد الوسائط موحد بسيط وقابل للتوسع يعتمد على معالج بصري هجين | الأوراق البحثية | HyperAI