BAGEL-7B-MoT هو نموذج أساسي متعدد الوسائط مفتوح المصدر، أطلقه فريق Seed التابع لشركة ByteDance في 22 مايو 2025. يهدف هذا النموذج إلى توحيد مهام فهم وإنشاء البيانات متعددة الوسائط، مثل النصوص والصور والفيديوهات. يتميز BAGEL بقدرات شاملة في فهم وإنشاء البيانات متعددة الوسائط، والاستدلال المعقد والتحرير، ونمذجة العالم والتنقل، وغيرها من المهام متعددة الوسائط. تشمل وظائفه الرئيسية الفهم البصري، وتحويل النصوص إلى صور، وتحرير الصور. تتوفر أوراق بحثية ذات صلة. الخصائص الناشئة في التدريب المسبق المتعدد الوسائط الموحد .
يستخدم هذا البرنامج التعليمي موارد الحوسبة A6000 ثنائية البطاقة ويوفر إنشاء الصور، وتوليد الصور باستخدام Think، وتحرير الصور، وتحرير الصور باستخدام Think، وفهم الصور للاختبار.
2. عرض التأثير
3. خطوات التشغيل
1. ابدأ تشغيل الحاوية
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
2. أمثلة الاستخدام
2.1 إنشاء الصور
المعلمات المحددة:
المطالبة: يمكنك إدخال نص لوصف محتوى الصورة هنا، وسوف يقوم النموذج بإنشاء صورة بناءً على هذا النص.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات التوليد: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تحويل الخطوة الزمنية: يتحكم في عملية التوليد.
نتيجة
2.2 توليد الصورة بالتفكير
المعلمات المحددة:
موجه إبداعي: يمكنك إدخال نص لوصف محتوى الصورة هنا، وسوف يقوم النموذج بإنشاء صورة بناءً على هذا النص.
رموز التفكير القصوى: التحكم في عمق التفكير.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات التوليد: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تحويل الخطوة الزمنية: يتحكم في عملية التوليد.
نتيجة
2.3 تحرير الصور
المعلمات المحددة:
تحميل الصورة: قم بتحميل الصورة التي تحتاج إلى تحرير.
تعليمات التحرير: تعليمات التحرير.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات التحرير: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تقدم التحرير: التحكم في عملية التوليد.
دقة الصورة: كلما كانت دقة الصورة أعلى، كلما كان ذلك أفضل، كلما تم الحفاظ على جزء أكبر من الصورة الأصلية.
نتيجة
2.4 تحرير الصور باستخدام Think
المعلمات المحددة:
تحميل الصورة: قم بتحميل الصورة التي تحتاج إلى تحرير.
تعليمات التحرير: تعليمات التحرير.
عمق التفكير: عمق التفكير.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات المعالجة: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تقدم التحرير: التحكم في عملية التوليد.
الحفاظ على الأصل: كلما كانت الصورة أكثر دقة، كلما تم الحفاظ على المزيد من الأصل.
نتيجة
2.5 فهم الصورة
المعلمات المحددة:
تحميل الصورة: قم بتحميل الصورة التي تحتاج إلى تحرير.
سؤالك: سؤالك.
نتيجة
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{deng2025bagel,
title = {Emerging Properties in Unified Multimodal Pretraining},
author = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
journal = {arXiv preprint arXiv:2505.14683},
year = {2025}
}
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.
BAGEL-7B-MoT هو نموذج أساسي متعدد الوسائط مفتوح المصدر، أطلقه فريق Seed التابع لشركة ByteDance في 22 مايو 2025. يهدف هذا النموذج إلى توحيد مهام فهم وإنشاء البيانات متعددة الوسائط، مثل النصوص والصور والفيديوهات. يتميز BAGEL بقدرات شاملة في فهم وإنشاء البيانات متعددة الوسائط، والاستدلال المعقد والتحرير، ونمذجة العالم والتنقل، وغيرها من المهام متعددة الوسائط. تشمل وظائفه الرئيسية الفهم البصري، وتحويل النصوص إلى صور، وتحرير الصور. تتوفر أوراق بحثية ذات صلة. الخصائص الناشئة في التدريب المسبق المتعدد الوسائط الموحد .
يستخدم هذا البرنامج التعليمي موارد الحوسبة A6000 ثنائية البطاقة ويوفر إنشاء الصور، وتوليد الصور باستخدام Think، وتحرير الصور، وتحرير الصور باستخدام Think، وفهم الصور للاختبار.
2. عرض التأثير
3. خطوات التشغيل
1. ابدأ تشغيل الحاوية
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
2. أمثلة الاستخدام
2.1 إنشاء الصور
المعلمات المحددة:
المطالبة: يمكنك إدخال نص لوصف محتوى الصورة هنا، وسوف يقوم النموذج بإنشاء صورة بناءً على هذا النص.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات التوليد: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تحويل الخطوة الزمنية: يتحكم في عملية التوليد.
نتيجة
2.2 توليد الصورة بالتفكير
المعلمات المحددة:
موجه إبداعي: يمكنك إدخال نص لوصف محتوى الصورة هنا، وسوف يقوم النموذج بإنشاء صورة بناءً على هذا النص.
رموز التفكير القصوى: التحكم في عمق التفكير.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات التوليد: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تحويل الخطوة الزمنية: يتحكم في عملية التوليد.
نتيجة
2.3 تحرير الصور
المعلمات المحددة:
تحميل الصورة: قم بتحميل الصورة التي تحتاج إلى تحرير.
تعليمات التحرير: تعليمات التحرير.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات التحرير: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تقدم التحرير: التحكم في عملية التوليد.
دقة الصورة: كلما كانت دقة الصورة أعلى، كلما كان ذلك أفضل، كلما تم الحفاظ على جزء أكبر من الصورة الأصلية.
نتيجة
2.4 تحرير الصور باستخدام Think
المعلمات المحددة:
تحميل الصورة: قم بتحميل الصورة التي تحتاج إلى تحرير.
تعليمات التحرير: تعليمات التحرير.
عمق التفكير: عمق التفكير.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات المعالجة: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تقدم التحرير: التحكم في عملية التوليد.
الحفاظ على الأصل: كلما كانت الصورة أكثر دقة، كلما تم الحفاظ على المزيد من الأصل.
نتيجة
2.5 فهم الصورة
المعلمات المحددة:
تحميل الصورة: قم بتحميل الصورة التي تحتاج إلى تحرير.
سؤالك: سؤالك.
نتيجة
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{deng2025bagel,
title = {Emerging Properties in Unified Multimodal Pretraining},
author = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
journal = {arXiv preprint arXiv:2505.14683},
year = {2025}
}
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.