Datum

vor einem Jahr

Größe

2.64 GB

Tencent Hunyuan3D-1.0: Ein einheitliches Framework für die Konvertierung von Text in 3D und Bild in 3D

1. Einführung in das Tutorial

Hunyuan3D-1.0 ist ein 3D-Generativdiffusionsmodell, das 2024 vom Forschungsteam von Tencent veröffentlicht wurde. Es umfasst eine schlanke und eine Standardversion, die beide die Generierung hochwertiger 3D-Objekte aus Text- und Bildeingaben ermöglichen. Die schlanke Version generiert 3D-Objekte in etwa 10 Sekunden, die Standardversion benötigt dafür etwa 25 Sekunden. Die Standardversion verfügt über dreimal so viele Parameter wie die schlanke Version und andere bestehende Modelle. Zugehörige technische Berichte sind verfügbar. Tencent Hunyuan3D-1.0: Ein einheitliches Framework für die Text-zu-3D- und Bild-zu-3D-Generierung .

Das Framework beinhaltet ein Text-zu-Bild-Modell, nämlich Hunyuan-DiT. Hunyuan3D-1.0 ist ein einheitliches Framework, das zur Text-zu-3D- und Bild-zu-3D-Generierung verwendet werden kann. Das Modell verfolgt einen zweistufigen Ansatz zur Generierung von 3D-Assets. In der ersten Phase wird ein Multi-View-Diffusionsmodell verwendet, um in etwa 4 Sekunden effizient Multi-View-RGB-Bilder zu generieren. In der zweiten Phase wird ein Feedforward-Rekonstruktionsmodell eingeführt, das diese Multi-View-Bilder verwendet, um die 3D-Ansicht in etwa 3 Sekunden schnell und genau zu rekonstruieren. Das Modell kann Objekte unterschiedlicher Größenordnung rekonstruieren, von großen Gebäuden bis hin zu kleinen Werkzeugen oder Pflanzen. Seine Leistung bei zwei öffentlichen 3D-Datensätzen – GSO und OmniObject3D – ist besser als die der gängigen Open-Source-Modelle und seine Gesamtfähigkeiten liegen auf international führendem Niveau. Nach der qualitativen und quantitativen mehrdimensionalen Bewertung schnitt Hunyuan3D-1.0 in Bezug auf geometrische Details, Texturdetails, Konsistenz von Textur und Geometrie, 3D-Rationalität und Anweisungskonformität sehr gut ab.

Die Veröffentlichung von Hunyuan3D-1.0 bietet 3D-Erstellern und -Künstlern ein leistungsstarkes Tool, mit dem die Produktion von 3D-Assets automatisiert und die Geschwindigkeit und Generalisierung der 3D-Generierung verbessert werden kann.

Dieses Tutorial ist eine abgespeckte Version von Hunyuan3D-1.0. Es werden 3 Modelle verwendet, damit die Weboberfläche zwei Funktionen umfasst:

Zwei Funktionen:

Bild zu 3D (image_to_3D)
Text zu 3D (text_to_3D)

Drei Modelle:

Hunyuan3D-1/lite Ein kompaktes Modell für die Multi-View-Generierung
Hunyuan3D-1/std Standardmodell zur Multi-View-Generierung
Hunyuan3D-1/svrm Sparse-View-Rekonstruktionsmodell

2. Effektbeispiele

3. Bedienungsschritte

启动容器后等待约 3 分钟（加载模型），点击 API 地址即可进入 Web 界面（否则将会显示 BadGateway）

1. Bild zu 3D (image_to_3d)

选择「Text to 3D」功能，按如下要求输入提示词和进行相关设置
如果需要生成 gif 必须选中「Render gif」，否则不会生成效果。其他功能无需选中

Abbildung 1. Videodemonstration zur Bilderzeugung

2. Text zu 3D (Bild zu Video)

选择「Image to 3D」功能，按如下要求输入提示词和相关设置。
注意：自行上传图像时，请务必保证图片为 n*n 的正方形，否则会出现报错的情况
 如果需要生成 gif 必须选中「Render gif」，否则不会生成效果。其他功能无需选中

Abbildung 2 Videodemonstration zur Bilderzeugung

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen

Datum

vor einem Jahr

Größe

2.64 GB

Tencent Hunyuan3D-1.0: Ein einheitliches Framework für die Konvertierung von Text in 3D und Bild in 3D

1. Einführung in das Tutorial

Dieses Tutorial ist eine abgespeckte Version von Hunyuan3D-1.0. Es werden 3 Modelle verwendet, damit die Weboberfläche zwei Funktionen umfasst:

Zwei Funktionen:

Bild zu 3D (image_to_3D)
Text zu 3D (text_to_3D)

Drei Modelle:

Hunyuan3D-1/lite Ein kompaktes Modell für die Multi-View-Generierung
Hunyuan3D-1/std Standardmodell zur Multi-View-Generierung
Hunyuan3D-1/svrm Sparse-View-Rekonstruktionsmodell

2. Effektbeispiele

3. Bedienungsschritte

启动容器后等待约 3 分钟（加载模型），点击 API 地址即可进入 Web 界面（否则将会显示 BadGateway）

1. Bild zu 3D (image_to_3d)

选择「Text to 3D」功能，按如下要求输入提示词和进行相关设置
如果需要生成 gif 必须选中「Render gif」，否则不会生成效果。其他功能无需选中

Abbildung 1. Videodemonstration zur Bilderzeugung

2. Text zu 3D (Bild zu Video)

选择「Image to 3D」功能，按如下要求输入提示词和相关设置。
注意：自行上传图像时，请务必保证图片为 n*n 的正方形，否则会出现报错的情况
 如果需要生成 gif 必须选中「Render gif」，否则不会生成效果。其他功能无需选中

Abbildung 2 Videodemonstration zur Bilderzeugung

Austausch und Diskussion

Verwandt Notebooks

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

vor 2 Monaten

SAM3: Visuelles Segmentierungsmodell

vor 2 Monaten

Docling: Tool Zur Dokumentanalyse

vor 2 Monaten

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

vor 19 Tagen

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

vor 3 Monaten

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

vor 2 Monaten

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

vor 2 Monaten

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Hunyuan3D: Generieren Sie 3D-Assets in Nur 10 Sekunden

Tencent Hunyuan3D-1.0: Ein einheitliches Framework für die Konvertierung von Text in 3D und Bild in 3D

1. Einführung in das Tutorial

2. Effektbeispiele

3. Bedienungsschritte

1. Bild zu 3D (image_to_3d)

2. Text zu 3D (Bild zu Video)

Austausch und Diskussion

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Hunyuan3D: Generieren Sie 3D-Assets in Nur 10 Sekunden

Tencent Hunyuan3D-1.0: Ein einheitliches Framework für die Konvertierung von Text in 3D und Bild in 3D

1. Einführung in das Tutorial

2. Effektbeispiele

3. Bedienungsschritte

1. Bild zu 3D (image_to_3d)

2. Text zu 3D (Bild zu Video)

Austausch und Diskussion

Verwandt Notebooks

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

SAM3: Visuelles Segmentierungsmodell

Docling: Tool Zur Dokumentanalyse

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Hunyuan3D: Generieren Sie 3D-Assets in Nur 10 Sekunden

Tencent Hunyuan3D-1.0: Ein einheitliches Framework für die Konvertierung von Text in 3D und Bild in 3D

1. Einführung in das Tutorial

2. Effektbeispiele

3. Bedienungsschritte

1. Bild zu 3D (image_to_3d)

2. Text zu 3D (Bild zu Video)

Austausch und Diskussion

Verwandt Notebooks

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

SAM3: Visuelles Segmentierungsmodell

Docling: Tool Zur Dokumentanalyse

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Notebooks

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

SAM3: Visuelles Segmentierungsmodell

Docling: Tool Zur Dokumentanalyse

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Verwandt Notebooks

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

SAM3: Visuelles Segmentierungsmodell

Docling: Tool Zur Dokumentanalyse

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

VibeVoice-Realtime TTS: Echtzeit-Sprachsynthesedienst

ROCKET-2: 3D-Spiel Zero-Shot-Transfer

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden