Command Palette
Search for a command to run...
مانزانو: نموذج متعدد الوسائط موحد بسيط وقابل للتوسع يعتمد على معالج بصري هجين

الملخص
النماذج الكبيرة الموحدة متعددة الوسائط (LLMs) التي تمتلك القدرة على فهم وإنتاج المحتوى البصري تمثل إمكانات هائلة. ومع ذلك، تعاني النماذج المفتوحة المصدر الحالية غالبًا من تناقض في الأداء بين هاتين القدرتين. نقدم "منزانو" (Manzano)، وهي إطار عمل موحد بسيط وقابل للتوسع، يقلل بشكل كبير من هذا التناقض من خلال ربط مُشفّر صور هجين بوصفة تدريب مدروسة جيدًا. يُغذي مُشفر بصري مُشترك واحد كلاً من مُعدّلين خفيفي الوزن، اللذين يُنتجان تمثيلات مستمرة للإدراك البصري-النصي، ورموزًا منفصلة لإنتاج صور من نص داخل فضاء معنوي مشترك. ويتوقع نموذج لغة كبير ذاتي التنبؤ موحدًا معنىً عالي المستوى على شكل رموز نصية ورموز صورية، بينما يقوم لاحقًا بتحويل الرموز الصورية إلى بكسلات عبر معالج تشتت مساعد. يُتيح هذا الهيكل، جنبًا إلى جنب مع وصفة تدريب موحدة تُطبَّق على بيانات الإدراك والإنتاج، تعلمًا مشتركًا قابلاً للتوسع لكلي القدرتين. تحقق "منزانو" أفضل النتائج بين النماذج الموحدة، وتنافس النماذج المتخصصة، خاصة في تقييمات مبنية على نصوص غنية. وتوحي دراساتنا بأن التعارض بين المهام ضئيل، وأن التوسع في حجم النموذج يؤدي إلى مكاسب مستمرة، مما يؤكد صحة اختيارنا لاستخدام مُشفّر هجين.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.