HyperAI초신경

Hunyuan3D: 단 10초 만에 3D 자산 생성

Tencent Hunyuan3D-1.0: 텍스트-3D 및 이미지-3D 변환을 위한 통합 프레임워크

1. 튜토리얼 소개

Hunyuan3D-1.0은 Tencent 연구팀이 2024년에 출시한 3D 생성 확산 모델입니다. 이 모델에는 경량 버전과 표준 버전이 포함되어 있으며, 두 버전 모두 텍스트와 이미지 입력에서 고품질 3D 자산을 생성하는 것을 지원합니다. 가벼운 버전은 약 10초 안에 3D 객체를 생성할 수 있고, 표준 버전은 약 25초 안에 완료할 수 있습니다. 표준 버전은 간소화된 버전과 다른 기존 모델보다 매개변수가 3배 더 많습니다. 관련 기술 보고서는 다음과 같습니다.Tencent Hunyuan3D-1.0: 텍스트-3D 및 이미지-3D 생성을 위한 통합 프레임워크".

이 프레임워크에는 Hunyuan-DiT라는 텍스트-이미지 모델이 포함됩니다. Hunyuan3D-1.0은 텍스트-3D 및 이미지-3D 생성에 적용할 수 있는 통합 프레임워크입니다. 이 모델은 3D 자산 생성에 2단계 접근 방식을 채택합니다. 첫 번째 단계에서는 다중 시점 확산 모델을 사용하여 약 4초 안에 다중 시점 RGB 이미지를 효율적으로 생성합니다. 두 번째 단계에서는 이러한 다중 뷰 이미지를 사용하여 약 3초 안에 3D 뷰를 빠르고 정확하게 재구성하는 피드포워드 재구성 모델을 소개합니다. 이 모델은 대형 건물부터 작은 도구나 식물까지 다양한 규모의 물체를 재구성할 수 있습니다. 두 가지 공개 3D 데이터 세트(GSO 및 OmniObject3D)에 대한 성능은 주류 오픈 소스 모델보다 우수하며, 전반적인 역량은 국제적으로 선두 수준입니다. 정성적, 정량적 다차원 평가 후, Hunyuan3D-1.0은 기하학적 세부 사항, 질감 세부 사항, 질감-기하학적 일관성, 3차원 합리성 및 지시 준수 측면에서 매우 좋은 성과를 보였습니다.

Hunyuan3D-1.0의 출시는 3D 제작자와 아티스트에게 3D 자산 제작을 자동화하고 3D 생성의 속도와 일반화를 개선할 수 있는 강력한 도구를 제공합니다.

이 튜토리얼은 Hunyuan3D-1.0의 가벼운 버전입니다. 웹 인터페이스에 2가지 기능을 포함시키기 위해 3가지 모델을 사용합니다.

두 가지 기능:

  • 이미지를 3D로(image_to_3D)
  • 텍스트를 3D로(text_to_3D)

세 가지 모델:

  • Hunyuan3D-1/lite 다중 뷰 생성을 위한 컴팩트 모델
  • Hunyuan3D-1/std 다중 뷰 생성을 위한 표준 모델
  • Hunyuan3D-1/svrm 희소 뷰 재구성 모델

2. 효과 예시

3. 작업 단계

启动容器后等待约 3 分钟(加载模型),点击 API 地址即可进入 Web 界面(否则将会显示 BadGateway)

1. 이미지를 3D로 변환(image_to_3d)

选择「Text to 3D」功能,按如下要求输入提示词和进行相关设置
如果需要生成 gif 必须选中「Render gif」,否则不会生成效果。其他功能无需选中

그림 1. 이미지 생성 비디오 데모

2. 텍스트를 3D로(image_to_video)

选择「Image to 3D」功能,按如下要求输入提示词和相关设置。
注意:自行上传图像时,请务必保证图片为 n*n 的正方形,否则会出现报错的情况
 如果需要生成 gif 必须选中「Render gif」,否则不会生成效果。其他功能无需选中

그림 2 이미지 생성 비디오 데모

교류 및 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓