HyperAIHyperAI
منذ 2 أشهر

فجر النماذج اللغوية المتعددة: استكشافات أولية مع GPT-4V(ision)

Yang, Zhengyuan ; Li, Linjie ; Lin, Kevin ; Wang, Jianfeng ; Lin, Chung-Ching ; Liu, Zicheng ; Wang, Lijuan
فجر النماذج اللغوية المتعددة: استكشافات أولية مع GPT-4V(ision)
الملخص

النماذج المتعددة الأوضاع الكبيرة (LMMs) توسّع النماذج اللغوية الكبيرة (LLMs) بإضافة مهارات متعددة الحواس، مثل الفهم البصري، لتحقيق ذكاء عام أقوى. في هذا البحث، نقوم بتحليل النموذج الأخير، GPT-4V(ision)، لتعزيز فهمنا للنماذج المتعددة الأوضاع. يركز التحليل على المهام المثيرة التي يمكن لـ GPT-4V القيام بها، والتي تتضمن عينات اختبار لاستكشاف جودة وعمومية قدرات GPT-4V، والمدخلات المدعومة وأوضاع العمل الخاصة به، والطرق الفعالة لتحفيز النموذج.في منهجيتنا لاستكشاف GPT-4V، نقوم بتجميع وتنظيم مجموعة من العينات النوعية المصممة بدقة وتغطي مجالات ومهمات متنوعة. تظهر الملاحظات المستخلصة من هذه العينات أن قدرة GPT-4V غير المسبوقة على معالجة المدخلات المتعددة الأوضاع بشكل تعسفي ومع عمومية قدراتها تجعل من GPT-4V نظامًا عامًا متعدد الأوضاع قويًا.علاوة على ذلك، فإن القدرة الفريدة لـ GPT-4V على فهم العلامات البصرية المرسومة على الصور الإدخال يمكن أن تقود إلى طرق جديدة للتفاعل بين الإنسان والحاسوب مثل تحفيز الإشارة البصرية. نختتم التقرير بمناقشات عميقة حول السيناريوهات التطبيقية الناشئة وأتجاهات البحث المستقبلية لأنظمة قائمة على GPT-4V. نأمل أن يلهم هذا الاستكشاف الأولي البحوث المستقبلية في صياغة المهام المتعددة الأوضاع الجيل القادم، وطرق جديدة للاستفادة من وإثراء النماذج المتعددة الأوضاع (LMMs) لحل المشاكل الحقيقية، وفهم أفضل للنماذج الأساسية المتعددة الأوضاع.أخيرًا، نعترف بأن النموذج الذي تم دراسته هو حصيلة عمل مبتكر-exclusive من OpenAI فقط، ويجب إعطاؤها كامل الائتمان لتطويره. يرجى الرجوع إلى ورقة إسهامات GPT-4V لمعرفة تفاصيل المؤلفين وإسناد الائتمان:https://cdn.openai.com/contributions/gpt-4v.pdf注释:在最后一句中,“حصيلة عمل مبتكر-exclusive” 中的 “exclusive” 一词在阿拉伯语中没有完全对应的词汇,因此保留了英文原词以确保信息完整。其他部分已按照要求进行了翻译。