التاريخ

منذ 2 أعوام

الحجم

56.09 GB

الوسوم

Cambrian-1 عبارة عن عائلة من LLMs متعددة الوسائط (MLLMs) المصممة بنهج يركز على الرؤية. في حين أن نماذج اللغة القوية يمكن أن تعزز القدرات المتعددة الوسائط، فإن خيارات تصميم المكون المرئي غالبًا ما تكون غير مستكشفة وغير متوافقة مع أبحاث التعلم التمثيلي البصري.

تم بناء Cambrian-1 حول خمسة ركائز أساسية، يوفر كل منها رؤى مهمة في مجال تصميم شركات التسويق متعدد المستويات:

التمثيل البصري: قام فريق البحث باستكشاف العديد من المشفرات البصرية ومجموعاتها.
تصميم الموصل: قام فريق البحث بتصميم موصل ديناميكي جديد وواعٍ مكانيًا يدمج الميزات المرئية من عدة نماذج مع تقليل عدد الرموز.
بيانات ضبط التعليمات: يقوم فريق البحث بجمع بيانات ضبط التعليمات المرئية عالية الجودة من الموارد العامة، مع التركيز على أهمية التوزيع المتوازن.
كتاب طبخ ضبط التعليمات: يناقش فريق البحث استراتيجيات وممارسات ضبط التعليمات.
المعايير: قام فريق البحث بفحص معايير التسويق متعدد المستويات الحالية وقدم معيارًا جديدًا يركز على الرؤية "CV-Bench".

موقع مشروع كامبريان-1:https://cambrian-mllm.github.io/#visual-representation

أداء النموذج

نموذج	# مرئي. توك.	إم إم بي	ضمان الجودة الأول	ماثفيستام	تشارت كيو ايه	MMVP
جي بي تي-4 في	جامعة نورث كارولينا	75.8	–	49.9	78.5	50.0
جيميني-1.0 برو	جامعة نورث كارولينا	73.6	–	45.2	–	–
جيميني-1.5 برو	جامعة نورث كارولينا	–	–	52.1	81.3	–
جروك-1.5	جامعة نورث كارولينا	–	–	52.8	76.1	–
MM-1-8B	144	72.3	72.6	35.9	–	–
MM-1-30B	144	75.1	81.0	39.4	–	–
ماجستير القانون الأساسي: LLaMA3-8B-Instruct
ميني-جيميني-HD-8B	2880	72.7	75.1	37.0	59.1	18.7
LLaVA-NeXT-8B	2880	72.1	72.8	36.3	69.5	38.7
الكمبري-1-8ب	576	75.9	80.4	49.0	73.3	51.3
ماجستير القانون الأساسي: فيكونا 1.5-13ب
ميني-جيميني-HD-13B	2880	68.6	71.9	37.0	56.6	19.3
LLaVA-NeXT-13B	2880	70.0	73.5	35.1	62.2	36.0
الكمبري-1-13ب	576	75.7	79.3	48.0	73.8	41.3
قاعدة ماجستير القانون: Hermes2-Yi-34B
ميني-جيميني-HD-34B	2880	80.6	77.7	43.4	67.6	37.3
LLaVA-NeXT-34B	2880	79.3	81.8	46.5	68.7	47.3
الكمبري-1-34ب	576	81.4	85.6	53.2	75.6	52.7

نشر خطوة الاستدلال

لقد قام هذا البرنامج التعليمي بنشر النموذج والبيئة. يمكنك استخدام النموذج الكبير مباشرةً للحوار المنطقي وفقًا لإرشادات البرنامج التعليمي. البرنامج التعليمي المحدد هو كما يلي:

1. الإعداد الأولي

1. افتح مساحة العمل بعد تكوين الموارد

2. افتح المحطة وأدخل الأمر `bash setup.sh`

3. بعد أن يقوم النظام بإخراج متغير البيئة المضاف إلى .bashrc، أدخل الأمر `source ~/.bashrc`

2. ابدأ تشغيل وحدة التحكم

4. بعد اكتمال التهيئة، أدخل الأمر في المحطة الطرفية `bash control.sh`

3. افتح الواجهة

5. انتظر لمدة 15 ثانية تقريبًا ثم افتحمحطة جديدة، وأدخل الأمر `bash gradio.sh`انقر على الرابط الذي تم إنشاؤه في الصفحة للدخول إلى واجهة النموذج

6. في هذا الوقت، لاحظ أنه لا يوجد نموذج يمكننا اختياره في واجهة النموذج. وذلك لأننا لم نقم بتكوين النموذج بعد. في هذه المرحلة، الخطوة الرابعة مطلوبة.

4. تكوين النموذج

7. افتح آخرمحطة جديدة وأدخل الأمر `bash model.sh` . عندما يظهر "Uvicorn قيد التشغيل على ..."، ارجع إلى واجهة الويب المفتوحة لـ Gradio وقم بتحديثها للتأكد من نشر النموذج. يمكنك بعد ذلك تحميل الصور والمطالبات للتحدث مع النموذج.

يوجد أيضًا العديد من المعلمات في النموذج والتي يمكن للمستخدم تعديلها.

يمكن أن تؤثر درجة الحرارة على الإبداع والعشوائية في المحتوى الناتج.
يمكن لـ Top p التحكم في حجم مجموعة الكلمات المرشحة، مما يؤثر على جودة وتنوع النص الناتج
يمكن لرموز الإخراج القصوى تغيير العدد الأقصى لرموز الإخراج.

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

كامبريان-إس-7 بي: نموذج متعدد الوسائط كبير الحجم للاستشعار المكاني الفائق للفيديو

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook