إنست-آي تي: تعزيز فهم الحالة المتعددة الأوضاع من خلال ضبط التعليمات البصرية الصريحة

حققت النماذج المتعددة الأوضاع الكبيرة (LMMs) تقدمًا كبيرًا بفضل تحسين ضبط التعليمات. ومع ذلك، بينما يمكن للنماذج الحالية فهم الصور والفيديوهات على المستوى الشامل، فإنها لا تزال تعاني من صعوبات في الفهم على مستوى المثال، والذي يتطلب فهمًا أكثر دقة وتوافقًا. يعتبر الفهم على مستوى المثال مهمًا للغاية، حيث يركز على العناصر المحددة التي نهتم بها بشكل خاص. وبشكل مثير للإعجاب، أظهرت الدراسات الحالية أن أفضل النماذج المتعددة الأوضاع الكبيرة تمتلك قدرات قوية في الفهم على مستوى المثال عند تقديمها بدلائل بصرية واضحة. مستوحىً من هذا الاكتشاف، نقدم خط أنابيب التسمية الآلية الذي يتم مساعدته بواسطة GPT-4o لاستخراج المعلومات على مستوى المثال من الصور والفيديوهات عبر التحفيز البصري الواضح لتوجيه المثال. بناءً على هذا الخط الأنابيب، اقترحنا حلًا يُعرف باسم Inst-IT لتعزيز قدرات النماذج المتعددة الأوضاع الكبيرة في الفهم على مستوى المثال من خلال ضبط التعليمات البصرية الواضحة. يتكون Inst-IT من معيار تشخيصي لفهم المثال متعدد الأوضاع، ومجموعة بيانات كبيرة لضبط التعليمات، ومنهجية تدريب مستمرة لضبط التعليمات بهدف تعزيز قدرات الفهم المكاني-الزماني للمثاليات في النماذج المتعددة الأوضاع الكبيرة الحالية بشكل فعال. أظهرت النتائج التجريبية أن مع تعزيز Inst-IT، حققت نماذجنا أداءً متميزًا في معيار تشخيصي Inst-IT بالإضافة إلى تحسين كبير في مجموعة متنوعة من مقاييس فهم الصور والفيديوهات العامة. وهذا يؤكد أن مجموعة البيانات الخاصة بنا ليس فقط تعزز الفهم على مستوى المثال ولكن أيضًا تقوي القدرات العامة لفهم الصور والفيديوهات.请注意,GPT-4o 是一个假设的技术名称,因此在阿拉伯语中保留了原始英文名称以确保准确性。其他术语如 "Instance-level understanding" 和 "Instruction Tuning" 已经翻译为符合阿拉伯语科技写作习惯的表达。