Dieses Notebook ausführen Auf Discord diskutieren

An error occurred in the Server Components render. The specific message is omitted in production builds to avoid leaking sensitive details. A digest property is included on this error instance which may provide additional details about the nature of the error.

Failed to load notebook details

1. Einführung in das Tutorial

Kiss3DGen ist ein Open-Source-Framework zur 3D-Generierung und -Rekonstruktion, entwickelt vom EnVision-Research-Team und im März 2025 veröffentlicht. Es ermöglicht die effiziente Übertragung vortrainierter 2D-Diffusionsmodelle auf Aufgaben der 3D-Inhaltsgenerierung. Kiss3DGen unterstützt hochwertiges Multiview-Rendering, 3D-Textgenerierung, Bild-zu-3D-Konvertierung und 3D-Mesh-Rekonstruktion und integriert fortschrittliche Module wie Flux, Multiview, Caption, Reconstruction und LLM. Zudem nutzt es die 3D-Bundle-Image-Technologie in Kombination mit Normal Maps und Texturinformationen für eine präzise geometrische Rekonstruktion. Darüber hinaus ist es mit Tools wie ControlNet zur Verbesserung und Bearbeitung von 3D-Modellen kompatibel. Das Open-Source-Framework ist einfach zu implementieren und bietet sowohl für die akademische Forschung als auch für praktische Anwendungen wertvolle Anwendungsmöglichkeiten. Zugehörige Forschungsarbeiten sind verfügbar. Kiss3DGen: Wiederverwendung von Bilddiffusionsmodellen für die 3D-Asset-GenerierungEs wurde in CVPR 2025 aufgenommen.

Dieses Tutorial verwendet ein Dual-GPU-System mit RTX a6000-Grafikkarten. Die Projektanweisungen sind nur auf Englisch verfügbar.

2. Projektbeispiele

Text-zu-3D

Bild-zu-3D

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte

Wird „Bad Gateway“ angezeigt, bedeutet dies, dass das Modell initialisiert wird. Da das Modell umfangreich ist, warten Sie bitte 5–7 Minuten und aktualisieren Sie dann die Seite.

Text-zu-3D

Bild-zu-3D

Hinweis: Sollte ein Fehler auftreten, verwenden Sie bitte ein kleineres Bild. Wir empfehlen ein Bild mit einer Größe von unter 3 MB.

Parameterbeschreibung

Redux-Stärke: Steuert den Grad der Bildoptimierung. Ein höherer Wert führt zu stärkeren Änderungen und mehr Detailabweichungen am Originalbild; ein niedrigerer Wert erhält mehr Details und Struktur des Originalbildes. Wertebereich: 0–1.
Rauschunterdrückungsstärke: Steuert den Grad der Rauschunterdrückung während der Bildgenerierung. Höhere Werte (näher an 1) erzeugen ein Bild, das dem Eingabebild ähnlicher ist, aber größere Abweichungen aufweist; niedrigere Werte erzeugen ein Ergebnis, das dem Originalbild ähnlicher ist. Wertebereich: 0–1.
Redux aktivieren: Wenn diese Option aktiviert ist, wird nach der Bildgenerierung automatisch ein optimiertes Neuzeichnen basierend auf der Redux-Stärke durchgeführt, um die Bildqualität und Detailgenauigkeit zu verbessern.
ControlNet aktivieren: Wenn ControlNet aktiviert ist, kann es während des Generierungsprozesses für Struktur- oder Merkmalsbeschränkungen (wie Referenzskizzen, Kantenkarten, Tiefenkarten usw.) verwendet werden, sodass das generierte Bild bestimmte Strukturanforderungen erfüllen und gleichzeitig seinen Stil beibehalten kann.

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{lin2025kiss3dgen,
  title={Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation},
  author={Lin, Jiantao and Yang, Xin and Chen, Meixi and Xu, Yingjie and Yan, Dongyu and Wu, Leyi and Xu, Xinli and Xu, Lie and Zhang, Shunsi and Chen, Ying-Cong},
  journal={arXiv preprint arXiv:2503.01370},
  year={2025}
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Command Palette

Kiss3DGen: Ein Framework Zur Generierung Von 3D-Assets Basierend Auf Einem Bilddiffusionsmodell

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

4. Diskussion

Zitationsinformationen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kiss3DGen: Ein Framework Zur Generierung Von 3D-Assets Basierend Auf Einem Bilddiffusionsmodell

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

4. Diskussion

Zitationsinformationen

Verwandt Notebooks

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Z-Image-Turbo: Ein Hocheffizientes 6B-Parameter-Bildgenerierungsmodell

Ovis-Image: Hochwertiges Bildgenerierungsmodell

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kiss3DGen: Ein Framework Zur Generierung Von 3D-Assets Basierend Auf Einem Bilddiffusionsmodell

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

4. Diskussion

Zitationsinformationen

Verwandt Notebooks

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Z-Image-Turbo: Ein Hocheffizientes 6B-Parameter-Bildgenerierungsmodell

Ovis-Image: Hochwertiges Bildgenerierungsmodell

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Notebooks

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Z-Image-Turbo: Ein Hocheffizientes 6B-Parameter-Bildgenerierungsmodell

Ovis-Image: Hochwertiges Bildgenerierungsmodell

Verwandt Notebooks

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Z-Image-Turbo: Ein Hocheffizientes 6B-Parameter-Bildgenerierungsmodell

Ovis-Image: Hochwertiges Bildgenerierungsmodell