HyperAIHyperAI
منذ 9 أيام

مِينِي جي بي تي-4: تحسين الفهم البصري-اللغوي باستخدام نماذج اللغة الكبيرة المتقدمة

Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny
مِينِي جي بي تي-4: تحسين الفهم البصري-اللغوي باستخدام نماذج اللغة الكبيرة المتقدمة
الملخص

أظهرت النسخة الحديثة من GPT-4 قدرات متعددة الوسائط استثنائية، مثل إنشاء مواقع ويب مباشرة من نص مكتوب بخط اليد، وتحديد العناصر المضحكة داخل الصور. هذه الميزات نادرة الحدوث في النماذج السابقة التي تجمع بين الرؤية واللغة. ومع ذلك، تبقى التفاصيل الفنية وراء GPT-4 مخفية حتى الآن. نعتقد أن القدرة المحسّنة على التوليد متعدد الوسائط في GPT-4 تعود إلى استخدام نماذج لغوية كبيرة معقدة (LLM). ولدراسة هذه الظاهرة، نقدّم MiniGPT-4، الذي يُتماشى فيه معقد مرئي ثابت مع نموذج لغوي كبير متقدم، وهو Vicuna، باستخدام طبقة تصوير واحدة فقط. تُعدّ هذه الدراسة أول دراسة تكشف أن محاذاة السمات البصرية بشكل مناسب مع نموذج لغوي كبير متقدم يمكن أن يمتلك قدرات متعددة الوسائط المتقدمة التي تُظهرها GPT-4، مثل إنشاء وصف دقيق للصور وبناء مواقع ويب من مخططات يدوية. علاوةً على ذلك، لاحظنا أيضًا ظهور قدرات جديدة في MiniGPT-4، منها كتابة قصص وقصائد مستوحاة من صور معطاة، وتعليم المستخدمين طريقة الطهي بناءً على صور للأطعمة، وغيرها من المهام. في تجاربنا، وجدنا أن النموذج المدرب على أزواج وصفات صور قصيرة ينتج إخراجات لغوية غير طبيعية (مثل التكرار والانفصال). ولحل هذه المشكلة، قمنا بتكوين مجموعة بيانات مفصلة لوصف الصور في المرحلة الثانية، ثم قمنا بتدريب النموذج بشكل مُحسَّن، مما أدى إلى تحسين موثوقية التوليد وقابلية الاستخدام العامة للنموذج. يمكن الوصول إلى الكود المصدري، والنماذج المدربة مسبقًا، ومجموعة البيانات التي تم جمعها من خلال الرابط التالي: https://minigpt-4.github.io/.

مِينِي جي بي تي-4: تحسين الفهم البصري-اللغوي باستخدام نماذج اللغة الكبيرة المتقدمة | أحدث الأوراق البحثية | HyperAI