BAGEL-7B-MoT هو نموذج أساسي متعدد الوسائط مفتوح المصدر أصدره فريق ByteDance Seed في 22 مايو 2025. ويهدف إلى توحيد مهام فهم وتوليد البيانات متعددة الوسائط مثل النصوص والصور ومقاطع الفيديو. تظهر BAGEL قدرات شاملة في المهام المتعددة الوسائط مثل الفهم والتوليد المتعدد الوسائط، والتفكير والتحرير المعقد، والنمذجة العالمية والملاحة. وظائفها الرئيسية هي الفهم البصري، وتحويل النص إلى صورة، وتحرير الصور، وما إلى ذلك. نتائج الورقة ذات الصلة هيالخصائص الناشئة في التدريب المسبق المتعدد الوسائط الموحد".
يستخدم هذا البرنامج التعليمي موارد الحوسبة A6000 ثنائية البطاقة ويوفر إنشاء الصور، وتوليد الصور باستخدام Think، وتحرير الصور، وتحرير الصور باستخدام Think، وفهم الصور للاختبار.
2. عرض التأثير
3. خطوات التشغيل
1. ابدأ تشغيل الحاوية
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
2. أمثلة الاستخدام
2.1 إنشاء الصور
المعلمات المحددة:
المطالبة: يمكنك إدخال نص لوصف محتوى الصورة هنا، وسوف يقوم النموذج بإنشاء صورة بناءً على هذا النص.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات التوليد: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تحويل الخطوة الزمنية: يتحكم في عملية التوليد.
نتيجة
2.2 توليد الصورة بالتفكير
المعلمات المحددة:
موجه إبداعي: يمكنك إدخال نص لوصف محتوى الصورة هنا، وسوف يقوم النموذج بإنشاء صورة بناءً على هذا النص.
رموز التفكير القصوى: التحكم في عمق التفكير.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات التوليد: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تحويل الخطوة الزمنية: يتحكم في عملية التوليد.
نتيجة
2.3 تحرير الصور
المعلمات المحددة:
تحميل الصورة: قم بتحميل الصورة التي تحتاج إلى تحرير.
تعليمات التحرير: تعليمات التحرير.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات التحرير: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تقدم التحرير: التحكم في عملية التوليد.
دقة الصورة: كلما كانت دقة الصورة أعلى، كلما كان ذلك أفضل، كلما تم الحفاظ على جزء أكبر من الصورة الأصلية.
نتيجة
2.4 تحرير الصور باستخدام Think
المعلمات المحددة:
تحميل الصورة: قم بتحميل الصورة التي تحتاج إلى تحرير.
تعليمات التحرير: تعليمات التحرير.
عمق التفكير: عمق التفكير.
مقياس توجيه النص: يتحكم في مدى تأثير المطالبة على الإخراج. القيم الأعلى لها تأثير أكبر.
خطوات المعالجة: كلما زادت الخطوات، زادت الجودة ولكن السرعة أبطأ.
تقدم التحرير: التحكم في عملية التوليد.
الحفاظ على الأصل: كلما كانت الصورة أكثر دقة، كلما تم الحفاظ على المزيد من الأصل.
نتيجة
2.5 فهم الصورة
المعلمات المحددة:
تحميل الصورة: قم بتحميل الصورة التي تحتاج إلى تحرير.
سؤالك: سؤالك.
نتيجة
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{deng2025bagel,
title = {Emerging Properties in Unified Multimodal Pretraining},
author = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
journal = {arXiv preprint arXiv:2505.14683},
year = {2025}
}