ضبط التوجيه البصري

ضبط التعليم للنماذج اللغوية الكبيرة (LLMs) باستخدام بيانات اتباع التعليمات المولدة آليًا قد أدى إلى تحسين قدراتها على التعامل مع المهام الجديدة دون تعليم مسبق، لكن هذه الفكرة لم يتم استكشافها بشكل كبير في مجال البيانات متعددة الوسائط. في هذا البحث، نقدم المحاولة الأولى لاستخدام GPT-4 اللغة فقط لتوليد بيانات اتباع التعليمات متعددة الوسائط تجمع بين اللغة والصورة. من خلال ضبط التعليم على مثل هذه البيانات المولدة، نقدم LLaVA: مساعد اللغة والرؤية الكبير، وهو نموذج متعدد الوسائط كبير تم تدريبه بشكل شامل يربط بين مُشفِّر الرؤية ونموذج اللغة الكبيرة لأجل فهم عام للصور ولللغة. تجاربنا الأولية تظهر أن LLaVA يُظهر قدرات محادثة متعددة الوسائط مثيرة للإعجاب، حيث يُظهر أحيانًا سلوكيات مشابهة لنموذج GPT-4 متعدد الوسائط على صور/تعليمات غير مرئية سابقًا، ويحقق نسبة دقة نسبية قدرها 85.1% مقارنة بـ GPT-4 على مجموعة بيانات اتباع التعليمات متعددة الوسائط الصناعية. عند التدريب الدقيق على Science QA، فإن تعاون LLaVA و GPT-4 يؤدي إلى دقة جديدة رائدة في المجال تبلغ 92.53%. نجعل بيانات ضبط التعليم المرئي المولدة بواسطة GPT-4، ونموذجنا وكود البرمجة الخاص بنا متاحة للجمهور.请注意,上述翻译中的一些术语如“vision encoder”(视觉编码器)被翻译为“مُشفِّر الرؤية”,“Science QA”(科学问答)被翻译为“Science QA”以保持其专有名词特性。其他术语如“large language models”(大型语言模型)、“multimodal”(多模态)等也采用了通用的阿拉伯语译法。