تجميع مجموعات النماذج المُدرّبة مسبقًا من خلال التوافق التكراري

تُظهر النماذج الكبيرة المُدرَّبة مسبقًا قدرات مميزة ومتناهية التكامل، وذلك وفقًا للبيانات التي تم تدريبها عليها. فعلى سبيل المثال، تمتلك نماذج اللغة مثل GPT-3 القدرة على الاستدلال النصي، لكنها لا تفهم المعلومات البصرية، في حين أن نماذج الرؤية مثل DALL-E قادرة على إنشاء صور واقعية تمامًا، لكنها تفشل في فهم الوصفات اللغوية المعقدة. في هذا العمل، نقترح إطارًا موحدًا لتكوين تجميعات من نماذج مُدرَّبة مسبقًا مختلفة — حيث يتم دمج مزايا كل نموذج فردي لحل مهام متعددة الوسائط بشكل صفر-مُعدّل (zero-shot). نستخدم النماذج المُدرَّبة مسبقًا كـ"مُولِّدات" أو "مُقيِّمات"، ونُركّبها من خلال تحسين التوافق التكراري المغلق (closed-loop iterative consensus optimization). حيث يقوم المُولِّد بإنشاء اقتراحات، بينما تُقدّم المُقيِّمات تغذية راجعة تكرارية لتحسين النتائج المُنتَجة. يُمكّن هذا التواصل المغلق النماذج من تصحيح الأخطاء الناتجة عن نماذج أخرى، مما يعزز الأداء بشكل كبير في المهام اللاحقة، مثلاً بزيادة دقة حل مسائل الرياضيات الابتدائية بنسبة 7.5%، دون الحاجة إلى أي تدريب دقيق (fine-tuning) للنماذج. نُظهر أن التوافق المُحقَّق عبر تجميع المُقيِّمات يتفوّق على تغذية راجعة من مُقيِّم واحد، وذلك بفضل الاستفادة من مزايا كل نموذج خبير. وتُظهر النتائج أن الطريقة المقترحة يمكن استخدامها كإطار عام لسلسلة واسعة من المهام متعددة الوسائط الصفر-مُعدَّلة، مثل توليد الصور، والإجابة على أسئلة الفيديو، والاستدلال الرياضي، والتحكم في الروبوتات. صفحة المشروع: https://energy-based-model.github.io/composing-pretrained-models.