تشغيل النسخة التجريبية من Cambrian-1 عبر الإنترنت


Cambrian-1 عبارة عن عائلة من LLMs متعددة الوسائط (MLLMs) المصممة بنهج يركز على الرؤية. في حين أن نماذج اللغة القوية يمكن أن تعزز القدرات المتعددة الوسائط، فإن خيارات تصميم المكون المرئي غالبًا ما تكون غير مستكشفة وغير متوافقة مع أبحاث التعلم التمثيلي البصري.
تم بناء Cambrian-1 حول خمسة ركائز أساسية، يوفر كل منها رؤى مهمة في مجال تصميم شركات التسويق متعدد المستويات:
- التمثيل البصري: قام فريق البحث باستكشاف العديد من المشفرات البصرية ومجموعاتها.
- تصميم الموصل: قام فريق البحث بتصميم موصل ديناميكي جديد وواعٍ مكانيًا يدمج الميزات المرئية من عدة نماذج مع تقليل عدد الرموز.
- بيانات ضبط التعليمات: يقوم فريق البحث بجمع بيانات ضبط التعليمات المرئية عالية الجودة من الموارد العامة، مع التركيز على أهمية التوزيع المتوازن.
- كتاب طبخ ضبط التعليمات: يناقش فريق البحث استراتيجيات وممارسات ضبط التعليمات.
- المعايير: قام فريق البحث بفحص معايير التسويق متعدد المستويات الحالية وقدم معيارًا جديدًا يركز على الرؤية "CV-Bench".
موقع مشروع كامبريان-1:https://cambrian-mllm.github.io/#visual-representation
أداء النموذج
نموذج | # مرئي. توك. | إم إم بي | ضمان الجودة الأول | ماثفيستام | تشارت كيو ايه | MMVP |
---|---|---|---|---|---|---|
جي بي تي-4 في | جامعة نورث كارولينا | 75.8 | – | 49.9 | 78.5 | 50.0 |
جيميني-1.0 برو | جامعة نورث كارولينا | 73.6 | – | 45.2 | – | – |
جيميني-1.5 برو | جامعة نورث كارولينا | – | – | 52.1 | 81.3 | – |
جروك-1.5 | جامعة نورث كارولينا | – | – | 52.8 | 76.1 | – |
MM-1-8B | 144 | 72.3 | 72.6 | 35.9 | – | – |
MM-1-30B | 144 | 75.1 | 81.0 | 39.4 | – | – |
ماجستير القانون الأساسي: LLaMA3-8B-Instruct | ||||||
ميني-جيميني-HD-8B | 2880 | 72.7 | 75.1 | 37.0 | 59.1 | 18.7 |
LLaVA-NeXT-8B | 2880 | 72.1 | 72.8 | 36.3 | 69.5 | 38.7 |
الكمبري-1-8ب | 576 | 75.9 | 80.4 | 49.0 | 73.3 | 51.3 |
ماجستير القانون الأساسي: فيكونا 1.5-13ب | ||||||
ميني-جيميني-HD-13B | 2880 | 68.6 | 71.9 | 37.0 | 56.6 | 19.3 |
LLaVA-NeXT-13B | 2880 | 70.0 | 73.5 | 35.1 | 62.2 | 36.0 |
الكمبري-1-13ب | 576 | 75.7 | 79.3 | 48.0 | 73.8 | 41.3 |
قاعدة ماجستير القانون: Hermes2-Yi-34B | ||||||
ميني-جيميني-HD-34B | 2880 | 80.6 | 77.7 | 43.4 | 67.6 | 37.3 |
LLaVA-NeXT-34B | 2880 | 79.3 | 81.8 | 46.5 | 68.7 | 47.3 |
الكمبري-1-34ب | 576 | 81.4 | 85.6 | 53.2 | 75.6 | 52.7 |
نشر خطوة الاستدلال
لقد قام هذا البرنامج التعليمي بنشر النموذج والبيئة. يمكنك استخدام النموذج الكبير مباشرةً للحوار المنطقي وفقًا لإرشادات البرنامج التعليمي. البرنامج التعليمي المحدد هو كما يلي:
1. الإعداد الأولي
1. افتح مساحة العمل بعد تكوين الموارد

2. افتح المحطة وأدخل الأمر bash setup.sh


3. بعد أن يقوم النظام بإخراج متغير البيئة المضاف إلى .bashrc، أدخل الأمر source ~/.bashrc

2. ابدأ تشغيل وحدة التحكم
4. بعد اكتمال التهيئة، أدخل الأمر في المحطة الطرفية bash control.sh

3. افتح الواجهة
5. انتظر لمدة 15 ثانية تقريبًا ثم افتحمحطة جديدة، وأدخل الأمر bash gradio.sh
انقر على الرابط الذي تم إنشاؤه في الصفحة للدخول إلى واجهة النموذج

6. في هذا الوقت، لاحظ أنه لا يوجد نموذج يمكننا اختياره في واجهة النموذج. وذلك لأننا لم نقم بتكوين النموذج بعد. في هذه المرحلة، الخطوة الرابعة مطلوبة.

4. تكوين النموذج
7. افتح آخرمحطة جديدة وأدخل الأمر bash model.sh
. عندما يظهر "Uvicorn قيد التشغيل على ..."، ارجع إلى واجهة الويب المفتوحة لـ Gradio وقم بتحديثها للتأكد من نشر النموذج. يمكنك بعد ذلك تحميل الصور والمطالبات للتحدث مع النموذج.


يوجد أيضًا العديد من المعلمات في النموذج والتي يمكن للمستخدم تعديلها.
- يمكن أن تؤثر درجة الحرارة على الإبداع والعشوائية في المحتوى الناتج.
- يمكن لـ Top p التحكم في حجم مجموعة الكلمات المرشحة، مما يؤثر على جودة وتنوع النص الناتج
- يمكن لرموز الإخراج القصوى تغيير العدد الأقصى لرموز الإخراج.
