HyperAIHyperAI

Command Palette

Search for a command to run...

픽스너드: 힉셀 뉴럴 필드 디퓨전

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

초록

현재 확산 트랜스포머의 성공은 사전 훈련된 변분 오토인코더(VAE)에 의해 형성된 압축된 잠재 공간에 크게 의존하고 있다. 그러나 이 두 단계 훈련 패러다임은 불가피하게 누적 오차와 디코딩 아티팩트를 초래한다. 이러한 문제를 해결하기 위해 연구자들은 복잡한 캐스케이드 파이프라인과 증가한 토큰 복잡성을 감수하면서 픽셀 공간으로 되돌아가야 했다. 반면, 우리는 신경 필드(neural field)를 활용하여 패치 단위 디코딩을 모델링하는 새로운 접근을 제안하며, 단일 스케일, 단일 단계, 효율적이고 엔드투엔드(end-to-end) 구조의 솔루션을 제안한다. 이를 '픽셀 신경 필드 확산(Pixel Neural Field Diffusion, PixelNerd)'이라 명명한다. PixelNerd의 효율적인 신경 필드 표현 덕분에, 복잡한 캐스케이드 파이프라인이나 VAE 없이도 ImageNet 256×256256\times256256×256에서 2.15 FID, ImageNet 512×512512\times512512×512에서 2.84 FID를 달성하였다. 또한 본 연구는 텍스트에서 이미지 생성 응용으로까지 PixelNerd 프레임워크를 확장하였다. PixelNerd-XXL/16은 GenEval 벤치마크에서 경쟁력 있는 0.73점의 종합 점수와 DPG 벤치마크에서 80.9점의 종합 점수를 기록하였다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
픽스너드: 힉셀 뉴럴 필드 디퓨전 | 문서 | HyperAI초신경