DreamLLM: الفهم والابتكار متعددة الوسائط بطريقة تكاملية

يقدم هذا البحث إطار DreamLLM، وهو نظام تعلم يحقق لأول مرة نماذج لغوية كبيرة متعددة الوسائط (MLLMs) مدعومة بالتعاون بين فهم الوسائط المتعددة وإنشائها، وهو تعاون غالباً ما يتم تجاهله. يعمل DreamLLM على مبدأين أساسيين. الأول يركز على نمذجة الجوانب اللاحقة للغة والصورة من خلال التحليل العشوائي المباشر في الفضاء المتعدد الوسائط الخام. هذا النهج يتجنب القيود وخسارة المعلومات التي تنطوي عليها أدوات استخراج الميزات الخارجية مثل CLIP، ويتم الحصول على فهم متعدد الوسائط أكثر شمولية. أما الثاني فيشجع على إنشاء وثائق خام متشابكة، حيث يتم نمذجة المحتوى النصي والمحتوى الصوري بالإضافة إلى التخطيطات غير المنظمة. وهذا يسمح لـDreamLLM بتعلم جميع التوزيعات الشرطية والهامشية والمشتركة للمواد المتعددة الوسائط بكفاءة. وبذلك,则 DreamLLM هو أول MLLM قادر على إنتاج محتوى متشابك حر. تُظهر التجارب الشاملة الأداء المتفوق لـDreamLLM كمتخصص عام متعدد الوسائط بدون تصوير سابق (zero-shot)، مستفيداً من تعزيز التعاون في التعلم.项目页面: https://dreamllm.github.io.(الصفحة الرئيسية للمشروع: https://dreamllm.github.io.)注释:最后一句中的“项目页面”被翻译为“الصفحة الرئيسية للمشروع”,以适应阿拉伯语的表达习惯。同时,"zero-shot" 一词在括号中保留了英文,因为这是一个特定的技术术语,在阿拉伯语中通常会直接使用英文。