تعزيز قوة نماذج التفكير متعددة الوسائط الصغيرة لتطابق النماذج الأكبر من خلال التدريب الذاتي المتسق

الاستدلال متعدد الوسائط هو مهمة صعبة تتطلب من النماذج الاستدلال عبر وسائط متعددة للإجابة على الأسئلة. قد أحرزت الأساليب الحالية تقدماً من خلال دمج الوسائط اللغوية والبصرية في إطار استدلال ذو مرحلتين، يفصل بين إنشاء العقلانية وإستنتاج الإجابة. ومع ذلك، غالباً ما تكون هذه الأساليب قاصرة بسبب جودة العقلانيات المولدة غير الكافية. في هذا البحث، نغوص في أهمية العقلانيات في استدلال النموذج. لقد لاحظنا أن عندما تكون العقلانيات دقيقة تماماً، تتحسن دقة النموذج بشكل كبير، مما يؤكد الحاجة إلى إنشاء عقلانيات عالية الجودة. مستوحى من هذا الأمر، نقترح MC-CoT، وهو استراتيجية تدريب ذاتية متسقة تولد العديد من العقلانيات والإجابات، ثم تقوم باختيار الأكثر دقة من خلال عملية التصويت. لا يقتصر هذا الأسلوب على تعزيز جودة العقلانيات المولدة فحسب، بل يؤدي أيضًا إلى إجابات أكثر دقة ومتانة. من خلال التجارب الشاملة، نثبت أن أسلوبنا يحسن بشكل كبير أداء النموذج عبر مختلف المقاييس القياسية. وبشكل ملحوظ، نظهر أنه حتى النماذج الأساسية الأصغر حجماً يمكنها تحقيق نتائج مماثلة لتلك التي حققها النماذج الأكبر عند تجهيزها بأسلوبنا المقترح، مما يوضح إمكانية أسلوبنا في الاستفادة من قوة العقلانيات لتحسين الاستدلال متعدد الوسائط. الرمز البرمجي متاح على https://github.com/chengtan9907/mc-cot.