الملخص

تطور التعلّم متعدد الوسائط بسرعة في فهم الصور، وذلك بفضل نماذج لغة كبيرة متعددة الوسائط (MLLMs) التي تستخدم نماذج لغة كبيرة قوية كنواة معرفية. ومع ذلك، في مجال توليد الصور، تُختزل هذه النماذج القوية عادةً إلى مُشفرات نصية عالمية لنموذج التشتت (diffusion models)، مما يترك معظم قدراتها على التفكير والتخطيط دون استخدام. وهذا يخلق فجوة: فبالرغم من أن النماذج متعددة الوسائط الحالية قادرة على تحليل التخطيطات المعقدة والخصائص والمشاهد الغنية بالمعرفة، إلا أنها تواجه صعوبة في إنتاج صور أو مقاطع فيديو بتحكم دقيق ومنظّم بنفس الدرجة. نقترح "MetaCanvas"، إطارًا خفيف الوزن يسمح لنماذج لغة كبيرة متعددة الوسائط بالتفكير والتخطيط مباشرةً في الفضاءات المكانية والمكانية-الزمنية (spatiotemporal latent spaces)، ويوفر تكاملًا وثيقًا مع مولّدات التشتت. قمنا بتنفيذ MetaCanvas تجريبيًا على ثلاث خلفيات مختلفة لنموذج التشتت، وقيّمناه على ستة مهام، تشمل توليد الصور من النص، وتوليد الفيديو من النص أو الصورة، وتحرير الصور/الفيديوهات، وتوليد الفيديو في السياق، حيث تتطلب كل مهمة تخطيطات دقيقة، وربطًا قويًا للخصائص، وتحكمًا يستند إلى التفكير العميق. أظهر MetaCanvas تفوقًا مستمرًا على النماذج الأساسية التي تعتمد على الشروط العالمية، مما يشير إلى أن اعتبار نماذج لغة كبيرة متعددة الوسائط كمخططات في الفضاءات المخفية (latent-space planners) يُعد اتجاهًا واعدًا لتقليل الفجوة بين الفهم متعدد الوسائط والتوليد.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

استكشاف نقل المعلومات بين MLLM-Diffusion باستخدام MetaCanvas

Han Lin Xichen Pan Ziqi Huang Ji Hou Jialiang Wang Weifeng Chen Zecheng He Felix Juefei-Xu Junzhe Sun Zhipeng Fan3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استكشاف نقل المعلومات بين MLLM-Diffusion باستخدام MetaCanvas

Han Lin Xichen Pan Ziqi Huang Ji Hou Jialiang Wang Weifeng Chen Zecheng He Felix Juefei-Xu Junzhe Sun Zhipeng Fan3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استكشاف نقل المعلومات بين MLLM-Diffusion باستخدام MetaCanvas

Han Lin Xichen Pan Ziqi Huang Ji Hou Jialiang Wang Weifeng Chen Zecheng He Felix Juefei-Xu Junzhe Sun Zhipeng Fan3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Han Lin Xichen Pan Ziqi Huang Ji Hou Jialiang Wang Weifeng Chen Zecheng He Felix Juefei-Xu Junzhe Sun Zhipeng Fan

Han Lin Xichen Pan Ziqi Huang Ji Hou Jialiang Wang Weifeng Chen Zecheng He Felix Juefei-Xu Junzhe Sun Zhipeng Fan

Han Lin Xichen Pan Ziqi Huang Ji Hou Jialiang Wang Weifeng Chen Zecheng He Felix Juefei-Xu Junzhe Sun Zhipeng Fan