SocialGPT: تحفيز النماذج اللغوية الكبيرة للاستدلال بالعلاقات الاجتماعية من خلال التحسين الجشّاع للقطع

يهدف التحليل المنطقي للعلاقات الاجتماعية إلى تحديد فئات العلاقات مثل الأصدقاء، والأزواج، والزملاء من الصور. بينما تعتمد الأساليب الحالية على نموذج تدريب شبكات مكرسة من البداية إلى النهاية باستخدام بيانات الصور المصنفة، فإنها محدودة فيما يتعلق بالقابلية للتعميم والتفسير. لمعالجة هذه القضايا، نقدم أولاً إطارًا بسيطًا ومعقدًا يُسمى {ame}، والذي يجمع بين قدرة نماذج الأساس البصري (VFMs) على الإدراك وقدرة النماذج اللغوية الكبيرة (LLMs) على التحليل المنطقي في إطار قابل للتقسيم، مما يوفر نقطة بداية قوية للاعتراف بالعلاقات الاجتماعية.وبشكل خاص، نوجه نماذج الأساس البصري (VFMs) لترجمة محتوى الصورة إلى قصة اجتماعية نصية، ثم نستفيد من النماذج اللغوية الكبيرة (LLMs) للتحليل المنطقي القائم على النص. يقدم {ame} مبادئ تصميم منهجية لتكييف نماذج الأساس البصري (VFMs) والنماذج اللغوية الكبيرة (LLMs) بشكل منفصل وإغلاق الفجوات بينهما. بدون أي تدريب إضافي للنموذج، يتمكن من تحقيق نتائج تنافسية في حالة عدم وجود بيانات تدريبية مسبقة على قاعدة بياناتين معروضتين، مع تقديم إجابات قابلة للتفسير، حيث يمكن لنماذج اللغة الكبيرة (LLMs) توليد شروحات قائمة على اللغة للأحكام.عملية تصميم الدوافع اليدوية لنماذج اللغة الكبيرة (LLMs) في مرحلة التحليل المنطقي تكون مرهقة ومكلفة، ولذا يتطلب الأمر طريقة تحسين دوافع آلية. بما أننا نحول جوهريًا مهمة تصنيف بصري إلى مهمة توليدية لنماذج اللغة الكبيرة (LLMs)، فإن تحسين الدوافع الآلية يواجه مشكلة فريدة وهي تحسين الدوافع الطويلة. لمعالجة هذه المشكلة، نقترح طريقة البحث الجشع عن دوافع المقاطع (GSPO)، والتي تقوم ببحث جشعي باستخدام المعلومات التدرجية على مستوى المقاطع. تظهر النتائج التجريبية أن GSPO يحسن الأداء بشكل كبير، وأن طرقتنا تتعمم أيضًا إلى أساليب صورية مختلفة.الكود متاح في: https://github.com/Mengzibin/SocialGPT.