Command Palette
Search for a command to run...
مجموعة بيانات تدريب تحويل النص إلى صورة - 2 مليون
"تحويل النص إلى صورة - 2 مليون" هي مجموعة بيانات عالية الجودة لأزواج النصوص والصور، مصممة لضبط نماذج تحويل النص إلى صورة بدقة. غالبًا ما تعاني مجموعات البيانات العامة الحالية من قيود (مجموعات بيانات فهم الصور، ومجموعات البيانات المجمعة بشكل غير رسمي أو الخاصة بمهام محددة، وقيود الحجم). لمعالجة هذه المشكلات، قام الفريق بدمج مجموعات البيانات عالية الجودة الحالية وتحسينها باستخدام نماذج متقدمة لتحويل النص إلى صورة ونماذج التعليقات التوضيحية لإنشاء مجموعة بيانات "تحويل النص إلى صورة - 2 مليون".
تحتوي مجموعة البيانات على حوالي 2 مليون عينة، مقسمة إلى مجموعتين فرعيتين أساسيتين: data_512_2M (2 مليون صورة بدقة 512×512 وتعليقات توضيحية) و data_1024_10K (10000 صورة بدقة عالية 1024×1024 وتعليقات توضيحية)، مما يوفر خيارات مرنة لتدريب النموذج مع متطلبات دقة مختلفة.
تكوين البيانات:
- البيانات_512_2م:
- مجموعة بيانات الضبط الدقيق LLaVA-next (حوالي 700000 عينة، يتم إعادة إنشاء النص بواسطة Qwen2-VL لتحسين الدقة)
- مجموعة بيانات LLaVA المدربة مسبقًا (حوالي 500000 عينة، ويتم إنشاء الصور بواسطة نموذج Flux-dev، ويتم الاحتفاظ بأوصاف النصوص الأصلية)
- مجموعة بيانات ProGamerGov الاصطناعية (حوالي 900 ألف عينة، مقصوصة من المنتصف ومُفلترة الصلاحية)
- مجموعة بيانات تم إنشاؤها بواسطة GPT-4o (100000 عينة، نص مصمم بواسطة GPT-4o، صور تم إنشاؤها بواسطة Flux-dev)
- البيانات_1024_10 كيلو بايت:
- يحتوي على 10000 صورة عالية الدقة، مع نص تم إنشاؤه بواسطة GPT-4o وصور تم تقديمها بواسطة نموذج Flux-dev، مع التركيز على المشاهد المعقدة ذات التفاصيل الغنية
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.