HyperAIHyperAI

Command Palette

Search for a command to run...

ضبط التوجيه البصري

Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee

الملخص

ضبط التعليم للنماذج اللغوية الكبيرة (LLMs) باستخدام بيانات اتباع التعليمات المولدة آليًا قد أدى إلى تحسين قدراتها على التعامل مع المهام الجديدة دون تعليم مسبق، لكن هذه الفكرة لم يتم استكشافها بشكل كبير في مجال البيانات متعددة الوسائط. في هذا البحث، نقدم المحاولة الأولى لاستخدام GPT-4 اللغة فقط لتوليد بيانات اتباع التعليمات متعددة الوسائط تجمع بين اللغة والصورة. من خلال ضبط التعليم على مثل هذه البيانات المولدة، نقدم LLaVA: مساعد اللغة والرؤية الكبير، وهو نموذج متعدد الوسائط كبير تم تدريبه بشكل شامل يربط بين مُشفِّر الرؤية ونموذج اللغة الكبيرة لأجل فهم عام للصور ولللغة. تجاربنا الأولية تظهر أن LLaVA يُظهر قدرات محادثة متعددة الوسائط مثيرة للإعجاب، حيث يُظهر أحيانًا سلوكيات مشابهة لنموذج GPT-4 متعدد الوسائط على صور/تعليمات غير مرئية سابقًا، ويحقق نسبة دقة نسبية قدرها 85.1% مقارنة بـ GPT-4 على مجموعة بيانات اتباع التعليمات متعددة الوسائط الصناعية. عند التدريب الدقيق على Science QA، فإن تعاون LLaVA و GPT-4 يؤدي إلى دقة جديدة رائدة في المجال تبلغ 92.53%. نجعل بيانات ضبط التعليم المرئي المولدة بواسطة GPT-4، ونموذجنا وكود البرمجة الخاص بنا متاحة للجمهور.请注意,上述翻译中的一些术语如“vision encoder”(视觉编码器)被翻译为“مُشفِّر الرؤية”,“Science QA”(科学问答)被翻译为“Science QA”以保持其专有名词特性。其他术语如“large language models”(大型语言模型)、“multimodal”(多模态)等也采用了通用的阿拉伯语译法。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ضبط التوجيه البصري | مستندات | HyperAI