GPT4RoI: ضبط النموذج اللغوي الكبير على منطقة الاهتمام

ضبط التعليم البصري للنموذج اللغوي الكبير (LLM) على أزواج الصورة-النص قد حقق قدرات رؤية-لغة عامة. ومع ذلك، فإن نقص أزواج المنطقة-النص يحد من تقدمهم في الفهم المتعدد الوسائط الدقيق. في هذا البحث، نقترح ضبط التعليم المكاني، والذي يدخل مرجعًا إلى المنطقة ذات الاهتمام (RoI) في التعليم. قبل إرساله إلى النموذج اللغوي الكبير، يتم استبدال المرجع بخصائص RoI ويتم تداخلها مع التضمينات اللغوية كسلسلة. نموذجنا GPT4RoI، الذي تم تدريبه على سبعة مجموعات بيانات لأزواج المنطقة-النص، يقدم تجربة تفاعلية ومحادثية غير مسبوقة مقارنة بال modelos السابقين على مستوى الصورة. (1) التفاعل خارج نطاق اللغة: يمكن للمستخدمين التفاعل مع نموذجنا باستخدام اللغة ورسم صناديق الحدود لتعديل دقة الإشارة بمرنّة.(2) قدرات متعددة الوسائط متنوعة: يمكن لـ GPT4RoI استخراج مجموعة متنوعة من المعلومات الخاصة بالسمات داخل كل RoI، مثل اللون والشكل والمادة والحركة وما إلى ذلك. بالإضافة إلى ذلك، يمكنه الاستدلال حول عدة RoIs بناءً على المنطق الشائع. على مجموعة بيانات الاستدلال البصري الشائع (VCR)، يحقق GPT4RoI دقة ملحوظة تبلغ 81.6٪، مما يتفوق بشكل كبير على جميع النماذج الموجودة (حيث يأتي ثاني أفضل نتيجة بنسبة 75.6٪) ويقترب تقريبًا من الأداء البشري بنسبة 85.0٪. يمكن العثور على الكود والنموذج في https://github.com/jshilong/GPT4RoI.请注意,为了更符合阿拉伯语的表达习惯,我在翻译中对一些句子的结构进行了调整。例如,“Interaction beyond language”被翻译为“التفاعل خارج نطاق اللغة”,并且在“GPT4RoI”后面添加了定冠词“ال”以适应阿拉伯语的语法规范。同时,我保留了原文中的专有名词和技术术语,并在必要时提供了括号内的英文标注。