1. مقدمة البرنامج التعليمي

سانا، الذي أُطلق في يناير 2025، هو مشروع مشترك بين إنفيديا ومعهد ماساتشوستس للتكنولوجيا وجامعة تسينغهوا. سانا عبارة عن إطار عمل لتحويل النصوص إلى صور، قادر على توليد صور بدقة تصل إلى 4096 × 4096 بكسل بكفاءة عالية. يتميز سانا بقدرته على توليد صور عالية الدقة والجودة بسرعة فائقة، بالإضافة إلى إمكانيات قوية في محاذاة النصوص مع الصور. تتضمن الأبحاث ذات الصلة... SANA: تركيب صور عالي الدقة بكفاءة باستخدام محولات الانتشار الخطيوقد تم قبولها من قبل المؤتمر الدولي لأبحاث العلاقات العمالية 2025.

يستخدم هذا البرنامج التعليمي نموذج Sana_1600M_1024px للتوضيح، وتستخدم موارد الحوسبة بطاقة 4090 واحدة.

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. يرجى الانتظار لمدة 1-2 دقيقة ثم قم بتحديث الصفحة.

2. استخدم العرض التوضيحي

معلومات الاستشهاد

شكرًا لمستخدم Github سوبر يانغ لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@misc{Sana2025, title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer}, author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han}, howpublished={\url{https://nvlabs.github.io/Sana/}}, note={GitHub Repository with Code, Model & Documentation}, year={2025} }

مناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ 9 أشهر

الحجم

312.05 MB

الوسوم

تصنيف الصور

معالجة الصور

الترخيص

Other

GitHub

NVlabs/Sana

رابط الورقة البحثية

2410.10629

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي نموذج Sana_1600M_1024px للتوضيح، وتستخدم موارد الحوسبة بطاقة 4090 واحدة.

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. يرجى الانتظار لمدة 1-2 دقيقة ثم قم بتحديث الصفحة.

2. استخدم العرض التوضيحي

معلومات الاستشهاد

شكرًا لمستخدم Github سوبر يانغ لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@misc{Sana2025,
  title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
  author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han},
  howpublished={\url{https://nvlabs.github.io/Sana/}},
  note={GitHub Repository with Code, Model & Documentation},
  year={2025}
}

مناقشة

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ 9 أشهر

الحجم

312.05 MB

الوسوم

تصنيف الصور

معالجة الصور

الترخيص

Other

GitHub

NVlabs/Sana

رابط الورقة البحثية

2410.10629

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي نموذج Sana_1600M_1024px للتوضيح، وتستخدم موارد الحوسبة بطاقة 4090 واحدة.

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. يرجى الانتظار لمدة 1-2 دقيقة ثم قم بتحديث الصفحة.

2. استخدم العرض التوضيحي

معلومات الاستشهاد

شكرًا لمستخدم Github سوبر يانغ لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@misc{Sana2025,
  title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
  author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han},
  howpublished={\url{https://nvlabs.github.io/Sana/}},
  note={GitHub Repository with Code, Model & Documentation},
  year={2025}
}

مناقشة

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

منذ 2 أشهر

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

منذ شهر واحد

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

منذ 2 أشهر

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

منذ 2 أشهر

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

منذ 3 أشهر

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

منذ 2 أشهر

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

منذ 2 أشهر

SAM3: نموذج التجزئة المرئية

منذ 2 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

تركيب الصور عالية الدقة من سانا

1. مقدمة البرنامج التعليمي

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. استخدم العرض التوضيحي

معلومات الاستشهاد

مناقشة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تركيب الصور عالية الدقة من سانا

1. مقدمة البرنامج التعليمي

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. استخدم العرض التوضيحي

معلومات الاستشهاد

مناقشة

ذات صلة دفاتر تفاعلية

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

SAM3: نموذج التجزئة المرئية

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تركيب الصور عالية الدقة من سانا

1. مقدمة البرنامج التعليمي

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. استخدم العرض التوضيحي

معلومات الاستشهاد

مناقشة

ذات صلة دفاتر تفاعلية

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

SAM3: نموذج التجزئة المرئية

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

SAM3: نموذج التجزئة المرئية

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

ذات صلة دفاتر تفاعلية

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

SAM3: نموذج التجزئة المرئية

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي