Command Palette
Search for a command to run...
ThinkMorph: الخصائص الناشئة في التفكير المتسلسل متعدد الوسائط المتشابكة
Jiawei Gu Yunzhuo Hao Huichen Will Wang Linjie Li Michael Qizhe Shieh Yejin Choi Ranjay Krishna Yu Cheng

الملخص
يتطلب التفكير متعدد الوسائط تنسيقًا تكراريًا بين اللغة والرؤية، لكن ما يُشكّل سلسلة معناها مترابطة من التفكير ما زال غير واضح. نحن نفترض أن تكون الأفكار النصية والبصرية وظيفية مكملة لبعضها البعض، بدلًا من أن تكون متماثلة، بحيث تُسهم كل منهما في تطوير عملية التفكير بشكل متبادل. مسترشدين بهذا المبدأ، نُنشئ نموذج "ThinkMorph"، وهو نموذج موحد تم تحسينه بدقة على 24 ألف مسار تفكير مُتداخل عالي الجودة، يغطي مهامًا تتباين في درجة التفاعل البصري. يتعلم ThinkMorph إنتاج خطوات تفكير متسلسلة بين النص والصورة، تُجري تلاعبًا ملموسًا بالمحتوى البصري مع الحفاظ على منطق لفظي متماسك. ويُظهر نموذج ThinkMorph تحسينات كبيرة في المعايير المرتبطة بالرؤية (بمتوسط 34.7% أفضل من النموذج الأساسي)، كما يُظهر قدرة على التعميم على مهام خارج المجال المدرب عليه، مُوازيًا أو تفوق نماذج متعددة الوسائط كبيرة الحجم ومقيدة بالملكية. وبالإضافة إلى الأداء، يُظهر ThinkMorph ذكاءً متعدد الوسائط ناشئًا، بما في ذلك مهارات غير مسبوقة في التلاعب البصري، والقدرة على التبديل التكيفي بين أنماط التفكير، وتحسين التوسع أثناء الاختبار من خلال أفكار متعددة الوسائط متنوعة. تشير هذه النتائج إلى اتجاهات واعدة لتحديد القدرات الناشئة للنماذج الموحدة في مجال التفكير متعدد الوسائط.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.