التاريخ

منذ عام واحد

الحجم

255 MB

الوسوم

Hyper-SD: نموذج اتساق تقسيم المسار لتوليف الصور بكفاءة

1. مقدمة البرنامج التعليمي

该教程仅用 RTX 4040 即可启动，注意：prompt 仅支持英文

Hyper-SD هو إطار عمل مبتكر لتوليف الصور أطلقته شركة ByteDance في عام 2024، ويهدف إلى تحسين كفاءة وأداء نماذج الانتشار في مهام توليف الصور. يعمل على تحسين كفاءة تركيب الصور بشكل كبير مع الحفاظ على الجودة العالية للصور المولدة من خلال تقنية تقطير الاتساق المجزأ للمسار (TSCD).

تتضمن الميزات الرئيسية لـ Hyper-SD ما يلي:

تقطير اتساق تقسيم المسار (TSCD): من خلال إجراء تقطير الاتساق تدريجيًا ضمن خطوات زمنية محددة مسبقًا، يتم الحفاظ على مسار ODE (معادلة التفاضل العادية) الأصلي بشكل فعال مع تقليل خطوات الاستدلال.
تعلم ردود الفعل البشرية: من خلال دمج التفضيلات الجمالية البشرية للصور المولدة، يتم تحسين أداء النموذج من خلال تعلم ردود الفعل، مما يحسن جودة الصورة بشكل كبير، وخاصة في مواقف التفكير ذات الخطوة المنخفضة.
نموذج LoRA الموحد: تم اقتراح نموذج LoRA موحد يدعم التفكير من 1 إلى 8 خطوات، مما يوفر المرونة للمستخدمين ذوي الاحتياجات المختلفة مع ضمان اتساق التفكير في جميع الأوقات.
تحسين الأداء: في عملية التفكير المكونة من بضع خطوات، يتفوق Hyper-SD على التكنولوجيا الحالية في مقاييس التقييم المتعددة، بما في ذلك CLIP Score وAes Score، مما يوضح مكانته الرائدة في مهام تركيب الصور.
يحقق Hyper-SD أداءً متطورًا لإنشاء الصور في عملية إنشاء تتكون من 1 إلى 8 خطوات على كل من بنيات SDXL وSD1.5. على سبيل المثال، يحقق Hyper-SDXL درجات CLIP وAes أعلى بمقدار +0.68 و+0.51 من SDXL-Lightning في الاستدلال بخطوة واحدة، على التوالي. بالإضافة إلى ذلك، تعمل طبيعة المصدر المفتوح لـ Hyper-SD على تعزيز نمو مجتمع الذكاء الاصطناعي التوليدي، مما يسمح للباحثين والمطورين باستكشاف النموذج وتحسينه بشكل أكبر.

2. خطوات التشغيل

1. 克隆并启动容器后点击 API 地址即可进入 Web 界面（由于模型较大，加载需要 1-2 分钟后才会在 API 界面）

2. 可以选择设置 prompt 和相关参数，然后继续创作，可选择对采样参数进行调整

عدد الصور: عدد الصور التي تم إنشاؤها.
خطوات الاستدلال: عدد خطوات الاستدلال.
موجه: محتوى الصورة التي سيتم إنشاؤها
مقياس تكييف ControlNet: مكيف ControlNet
البذرة: رقم البذرة العشوائي، كما هو موضح أدناه

在左侧进行绘制即可即可实时看到生成图像变化

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ عام واحد

الحجم

255 MB

الوسوم

توليد الصور

نموذج الانتشار

Hyper-SD: نموذج اتساق تقسيم المسار لتوليف الصور بكفاءة

1. مقدمة البرنامج التعليمي

该教程仅用 RTX 4040 即可启动，注意：prompt 仅支持英文

تتضمن الميزات الرئيسية لـ Hyper-SD ما يلي:

تقطير اتساق تقسيم المسار (TSCD): من خلال إجراء تقطير الاتساق تدريجيًا ضمن خطوات زمنية محددة مسبقًا، يتم الحفاظ على مسار ODE (معادلة التفاضل العادية) الأصلي بشكل فعال مع تقليل خطوات الاستدلال.
تعلم ردود الفعل البشرية: من خلال دمج التفضيلات الجمالية البشرية للصور المولدة، يتم تحسين أداء النموذج من خلال تعلم ردود الفعل، مما يحسن جودة الصورة بشكل كبير، وخاصة في مواقف التفكير ذات الخطوة المنخفضة.
نموذج LoRA الموحد: تم اقتراح نموذج LoRA موحد يدعم التفكير من 1 إلى 8 خطوات، مما يوفر المرونة للمستخدمين ذوي الاحتياجات المختلفة مع ضمان اتساق التفكير في جميع الأوقات.
تحسين الأداء: في عملية التفكير المكونة من بضع خطوات، يتفوق Hyper-SD على التكنولوجيا الحالية في مقاييس التقييم المتعددة، بما في ذلك CLIP Score وAes Score، مما يوضح مكانته الرائدة في مهام تركيب الصور.
يحقق Hyper-SD أداءً متطورًا لإنشاء الصور في عملية إنشاء تتكون من 1 إلى 8 خطوات على كل من بنيات SDXL وSD1.5. على سبيل المثال، يحقق Hyper-SDXL درجات CLIP وAes أعلى بمقدار +0.68 و+0.51 من SDXL-Lightning في الاستدلال بخطوة واحدة، على التوالي. بالإضافة إلى ذلك، تعمل طبيعة المصدر المفتوح لـ Hyper-SD على تعزيز نمو مجتمع الذكاء الاصطناعي التوليدي، مما يسمح للباحثين والمطورين باستكشاف النموذج وتحسينه بشكل أكبر.

2. خطوات التشغيل

1. 克隆并启动容器后点击 API 地址即可进入 Web 界面（由于模型较大，加载需要 1-2 分钟后才会在 API 界面）

2. 可以选择设置 prompt 和相关参数，然后继续创作，可选择对采样参数进行调整

عدد الصور: عدد الصور التي تم إنشاؤها.
خطوات الاستدلال: عدد خطوات الاستدلال.
موجه: محتوى الصورة التي سيتم إنشاؤها
مقياس تكييف ControlNet: مكيف ControlNet
البذرة: رقم البذرة العشوائي، كما هو موضح أدناه

在左侧进行绘制即可即可实时看到生成图像变化

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

منذ شهر واحد

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

منذ 2 أشهر

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

منذ 3 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

SAM3: نموذج التجزئة المرئية

منذ 2 أشهر

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

منذ 2 أشهر

Ovis-Image: نموذج توليد صور عالية الجودة

منذ 2 أشهر

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

منذ 2 أشهر

نشر Qwen-Image-Lightning بنقرة واحدة

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

الرسم في الوقت الفعلي بتقنية Hyper-SD

Hyper-SD: نموذج اتساق تقسيم المسار لتوليف الصور بكفاءة

1. مقدمة البرنامج التعليمي

2. خطوات التشغيل

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الرسم في الوقت الفعلي بتقنية Hyper-SD

Hyper-SD: نموذج اتساق تقسيم المسار لتوليف الصور بكفاءة

1. مقدمة البرنامج التعليمي

2. خطوات التشغيل

ذات صلة دفاتر تفاعلية

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

Ovis-Image: نموذج توليد صور عالية الجودة

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

نشر Qwen-Image-Lightning بنقرة واحدة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الرسم في الوقت الفعلي بتقنية Hyper-SD

Hyper-SD: نموذج اتساق تقسيم المسار لتوليف الصور بكفاءة

1. مقدمة البرنامج التعليمي

2. خطوات التشغيل

ذات صلة دفاتر تفاعلية

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

Ovis-Image: نموذج توليد صور عالية الجودة

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

نشر Qwen-Image-Lightning بنقرة واحدة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

Ovis-Image: نموذج توليد صور عالية الجودة

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

نشر Qwen-Image-Lightning بنقرة واحدة

ذات صلة دفاتر تفاعلية

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

LongCat-Image: نظام ثنائي اللغة لتوليد الصور يعتمد على النصوص

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

Ovis-Image: نموذج توليد صور عالية الجودة

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

نشر Qwen-Image-Lightning بنقرة واحدة