HyperAIHyperAI
منذ 2 أشهر

الاستدلال متعدد الوسائط في نماذج اللغة

Zhuosheng Zhang; Aston Zhang; Mu Li; Hai Zhao; George Karypis; Alex Smola
الاستدلال متعدد الوسائط في نماذج اللغة
الملخص

أظهرت نماذج اللغات الكبيرة (LLMs) أداءً مثيرًا للإعجاب في التفكير المعقد من خلال الاستفادة من توجيه سلسلة的思想 (CoT) 来生成作为推理答案依据的中间推理链。然而,现有的 CoT 研究主要集中在语言模态上。我们提出了多模态-CoT 方法,该方法将语言(文本)和视觉(图像)模态整合到一个两阶段框架中,该框架将推理依据的生成与答案推断分开。通过这种方式,答案推断可以利用基于多模态信息而生成的更好推理依据。在 ScienceQA 和 A-OKVQA 基准数据集上的实验结果表明了我们提出的方法的有效性。借助多模态-CoT,我们的参数少于 10 亿的模型在 ScienceQA 基准上实现了最先进的性能。我们的分析表明,多模态-CoT 在减轻幻觉和提高收敛速度方面具有优势。代码已公开发布在 https://github.com/amazon-science/mm-cot.为了确保翻译更加准确和流畅,以下是优化后的阿拉伯语翻译:نماذج اللغات الكبيرة (LLMs) أظهرت أداءً مثيرًا للإعجاب في التفكير المعقد من خلال استخدام تقنية توجيه سلسلة الأفكار (CoT)، مما يتيح لها إنتاج سلاسل تفكير وسطية كأساس لاستنباط الإجابة. ومع ذلك، ركزت معظم الدراسات الحالية حول CoT على النمط اللغوي. نقترح هنا نهجًا جديدًا يُعرف بـ "النمط متعدد الوسائط لسلسلة الأفكار" (Multimodal-CoT)، والذي يدمج النمطين اللغوي (النص) والبصري (الصور) في إطار عمل ذو مرحلتين يفصل بين إنتاج المبررات واستنباط الإجابة. بهذه الطريقة، يمكن أن يستفيد استنباط الإجابة من مبررات أفضل تم إنتاجها بناءً على المعلومات متعددة الوسائط. أظهرت نتائج التجارب على مجموعات البيانات المرجعية ScienceQA و A-OKVQA فعالية النهج المقترح. باستخدام Multimodal-CoT، حقق نموذجنا الذي يحتوي على أقل من مليار معلمة أداءً رائدًا على مقاييس ScienceQA. تشير تحليلاتنا إلى أن Multimodal-CoT يقدم مزايا في تخفيف الهلوسة وزيادة سرعة التقارب. الرمز البرمجي متاح بشكل عام على الرابط: https://github.com/amazon-science/mm-cot.

الاستدلال متعدد الوسائط في نماذج اللغة | أحدث الأوراق البحثية | HyperAI