منذ 6 أشهر

الملخص

أظهرت النسخة الحديثة من GPT-4 قدرات متعددة الوسائط استثنائية، مثل إنشاء مواقع ويب مباشرة من نص مكتوب بخط اليد، وتحديد العناصر المضحكة داخل الصور. هذه الميزات نادرة الحدوث في النماذج السابقة التي تجمع بين الرؤية واللغة. ومع ذلك، تبقى التفاصيل الفنية وراء GPT-4 مخفية حتى الآن. نعتقد أن القدرة المحسّنة على التوليد متعدد الوسائط في GPT-4 تعود إلى استخدام نماذج لغوية كبيرة معقدة (LLM). ولدراسة هذه الظاهرة، نقدّم MiniGPT-4، الذي يُتماشى فيه معقد مرئي ثابت مع نموذج لغوي كبير متقدم، وهو Vicuna، باستخدام طبقة تصوير واحدة فقط. تُعدّ هذه الدراسة أول دراسة تكشف أن محاذاة السمات البصرية بشكل مناسب مع نموذج لغوي كبير متقدم يمكن أن يمتلك قدرات متعددة الوسائط المتقدمة التي تُظهرها GPT-4، مثل إنشاء وصف دقيق للصور وبناء مواقع ويب من مخططات يدوية. علاوةً على ذلك، لاحظنا أيضًا ظهور قدرات جديدة في MiniGPT-4، منها كتابة قصص وقصائد مستوحاة من صور معطاة، وتعليم المستخدمين طريقة الطهي بناءً على صور للأطعمة، وغيرها من المهام. في تجاربنا، وجدنا أن النموذج المدرب على أزواج وصفات صور قصيرة ينتج إخراجات لغوية غير طبيعية (مثل التكرار والانفصال). ولحل هذه المشكلة، قمنا بتكوين مجموعة بيانات مفصلة لوصف الصور في المرحلة الثانية، ثم قمنا بتدريب النموذج بشكل مُحسَّن، مما أدى إلى تحسين موثوقية التوليد وقابلية الاستخدام العامة للنموذج. يمكن الوصول إلى الكود المصدري، والنماذج المدربة مسبقًا، ومجموعة البيانات التي تم جمعها من خلال الرابط التالي: https://minigpt-4.github.io/.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مِينِي جي بي تي-4: تحسين الفهم البصري-اللغوي باستخدام نماذج اللغة الكبيرة المتقدمة

Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مِينِي جي بي تي-4: تحسين الفهم البصري-اللغوي باستخدام نماذج اللغة الكبيرة المتقدمة

Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مِينِي جي بي تي-4: تحسين الفهم البصري-اللغوي باستخدام نماذج اللغة الكبيرة المتقدمة

Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters