HyperAIHyperAI

Command Palette

Search for a command to run...

مِينِي جي بي تي-4: تحسين الفهم البصري-اللغوي باستخدام نماذج اللغة الكبيرة المتقدمة

Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny

الملخص

أظهرت النسخة الحديثة من GPT-4 قدرات متعددة الوسائط استثنائية، مثل إنشاء مواقع ويب مباشرة من نص مكتوب بخط اليد، وتحديد العناصر المضحكة داخل الصور. هذه الميزات نادرة الحدوث في النماذج السابقة التي تجمع بين الرؤية واللغة. ومع ذلك، تبقى التفاصيل الفنية وراء GPT-4 مخفية حتى الآن. نعتقد أن القدرة المحسّنة على التوليد متعدد الوسائط في GPT-4 تعود إلى استخدام نماذج لغوية كبيرة معقدة (LLM). ولدراسة هذه الظاهرة، نقدّم MiniGPT-4، الذي يُتماشى فيه معقد مرئي ثابت مع نموذج لغوي كبير متقدم، وهو Vicuna، باستخدام طبقة تصوير واحدة فقط. تُعدّ هذه الدراسة أول دراسة تكشف أن محاذاة السمات البصرية بشكل مناسب مع نموذج لغوي كبير متقدم يمكن أن يمتلك قدرات متعددة الوسائط المتقدمة التي تُظهرها GPT-4، مثل إنشاء وصف دقيق للصور وبناء مواقع ويب من مخططات يدوية. علاوةً على ذلك، لاحظنا أيضًا ظهور قدرات جديدة في MiniGPT-4، منها كتابة قصص وقصائد مستوحاة من صور معطاة، وتعليم المستخدمين طريقة الطهي بناءً على صور للأطعمة، وغيرها من المهام. في تجاربنا، وجدنا أن النموذج المدرب على أزواج وصفات صور قصيرة ينتج إخراجات لغوية غير طبيعية (مثل التكرار والانفصال). ولحل هذه المشكلة، قمنا بتكوين مجموعة بيانات مفصلة لوصف الصور في المرحلة الثانية، ثم قمنا بتدريب النموذج بشكل مُحسَّن، مما أدى إلى تحسين موثوقية التوليد وقابلية الاستخدام العامة للنموذج. يمكن الوصول إلى الكود المصدري، والنماذج المدربة مسبقًا، ومجموعة البيانات التي تم جمعها من خلال الرابط التالي: https://minigpt-4.github.io/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp