التاريخ

منذ 9 أشهر

الحجم

516.56 MB

الوسوم

توليد الفيديو

الترخيص

Other

GitHub

wileewang/TransPixeler

رابط الورقة البحثية

2501.03006

1. مقدمة البرنامج التعليمي

تُعدّ TransPixeler، وهي طريقة لتحويل النصوص إلى فيديوهات، طُرحت عام 2025 من قِبل الجامعة الصينية في هونغ كونغ، وجامعة هونغ كونغ للعلوم والتكنولوجيا، وقسم الأبحاث في Adobe، طريقةً تُحافظ على مزايا نموذج RGB الأصلي، وتُحقق توافقًا قويًا بين قنوات RGB وقناة ألفا باستخدام بيانات تدريب محدودة. تُتيح هذه الطريقة إمكانية توليد فيديوهات RGBA متنوعة ومتناسقة بكفاءة، مما يُعزز إمكانيات المؤثرات البصرية وإنشاء المحتوى التفاعلي. تتوفر أوراق بحثية ذات صلة. TransPixeler: تطوير تحويل النصوص إلى مقاطع فيديو مع الشفافيةقد كان CVPR 2025 يقبل.

يستخدم هذا البرنامج التعليمي مورد A6000 ببطاقة واحدة، ووصف النص يدعم اللغة الإنجليزية فقط في الوقت الحالي.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج

وصف المعلمة:

البذرة: بذرة رقم عشوائي، تستخدم للتحكم في عشوائية عملية التوليد. يمكن لقيمة البذرة نفسها أن تنتج نفس النتائج (بشرط أن تكون المعلمات الأخرى هي نفسها)، وهو أمر مهم للغاية في إعادة إنتاج النتائج.

كيفية الاستخدام

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

شكرًا لمستخدم Github xxxجججج1 نشر هذا البرنامج التعليمي. معلومات الاستشهاد لهذا المشروع هي كما يلي:

@misc{wang2025transpixeler,
      title={TransPixeler: Advancing Text-to-Video Generation with Transparency}, 
      author={Luozhou Wang and Yijun Li and Zhifei Chen and Jui-Hsien Wang and Zhifei Zhang and He Zhang and Zhe Lin and Ying-Cong Chen},
      year={2025},
      eprint={2501.03006},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2501.03006}, 
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ 9 أشهر

الحجم

516.56 MB

الوسوم

توليد الفيديو

الترخيص

Other

GitHub

wileewang/TransPixeler

رابط الورقة البحثية

2501.03006

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي مورد A6000 ببطاقة واحدة، ووصف النص يدعم اللغة الإنجليزية فقط في الوقت الحالي.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج

وصف المعلمة:

البذرة: بذرة رقم عشوائي، تستخدم للتحكم في عشوائية عملية التوليد. يمكن لقيمة البذرة نفسها أن تنتج نفس النتائج (بشرط أن تكون المعلمات الأخرى هي نفسها)، وهو أمر مهم للغاية في إعادة إنتاج النتائج.

كيفية الاستخدام

4. المناقشة

معلومات الاستشهاد

شكرًا لمستخدم Github xxxجججج1 نشر هذا البرنامج التعليمي. معلومات الاستشهاد لهذا المشروع هي كما يلي:

@misc{wang2025transpixeler,
      title={TransPixeler: Advancing Text-to-Video Generation with Transparency}, 
      author={Luozhou Wang and Yijun Li and Zhifei Chen and Jui-Hsien Wang and Zhifei Zhang and He Zhang and Zhe Lin and Ying-Cong Chen},
      year={2025},
      eprint={2501.03006},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2501.03006}, 
}

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

منذ 3 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

منذ 2 أشهر

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

منذ 2 أشهر

SAM3: نموذج التجزئة المرئية

منذ 2 أشهر

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

منذ 3 أشهر

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

منذ 2 أشهر

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

TransPixeler: فيديو لإنشاء نص RGBA

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TransPixeler: فيديو لإنشاء نص RGBA

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

SAM3: نموذج التجزئة المرئية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TransPixeler: فيديو لإنشاء نص RGBA

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

4. المناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

SAM3: نموذج التجزئة المرئية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

SAM3: نموذج التجزئة المرئية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

العمق-أي-شيء-3: استعادة المساحة البصرية من أي منظور

SAM3: نموذج التجزئة المرئية

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan