Command Palette

Search for a command to run...

7일 전

스타일 하나가 코드 하나보다 더 가치 있다: 이산 스타일 공간을 통한 코드에서 스타일 이미지 생성 해제

Huijie Liu Shuhao Cui Haoxiang Cao Shuai Ma Kai Wu Guoliang Kang

스타일 하나가 코드 하나보다 더 가치 있다: 이산 스타일 공간을 통한 코드에서 스타일 이미지 생성 해제

초록

혁신적인 시각적 스타일화는 예술 창작의 핵심 요소이지만, 새로운 일관된 시각적 스타일을 생성하는 것은 여전히 큰 도전 과제이다. 기존의 생성적 접근 방식은 일반적으로 긴 텍스트 프롬프트, 참조 이미지 또는 파라미터 효율적인 피니어 튜닝을 활용하여 스타일 인식 이미지 생성을 유도하지만, 스타일 일관성 부족, 창의성 제한, 복잡한 스타일 표현 등 다양한 문제를 겪는다. 본 논문에서는 새로운 작업인 '코드-스타일 이미지 생성(code-to-style image generation)'을 제안함으로써, 시각적 스타일은 하나의 수치 코드로 충분하다는 주장을 확립한다. 이 작업은 단지 하나의 수치적 스타일 코드만을 조건으로 하여 새로운 일관된 시각적 스타일을 가진 이미지를 생성한다. 현재까지 이 분야는 주로 산업계(예: Midjourney)에서 중심적으로 연구되었으며, 학계에서는 오픈소스 연구가 거의 이루어지지 않았다. 이러한 격차를 메우기 위해 우리는 이 작업을 위한 최초의 오픈소스 방법론인 CoTyle을 제안한다. 구체적으로, 먼저 이미지 집합에서 이산적 스타일 코드북을 학습하여 스타일 임베딩을 추출한다. 이러한 임베딩은 텍스트-이미지 확산 모델(Text-to-Image Diffusion Model, T2I-DM)의 조건으로 활용되어 스타일화된 이미지를 생성한다. 이후, 이산적 스타일 임베딩 위에서 자기회귀적 스타일 생성기(Autoregressive Style Generator)를 학습하여 임베딩의 분포를 모델링하고, 새로운 스타일 임베딩의 합성을 가능하게 한다. 추론 단계에서는 스타일 생성기가 수치적 스타일 코드를 고유한 스타일 임베딩으로 매핑하고, 해당 임베딩이 T2I-DM를 안내하여 해당 스타일에 맞는 이미지를 생성한다. 기존 방법들과 달리, 본 방법은 뛰어난 단순성과 다양성을 제공하며, 최소한의 입력으로부터 재현 가능한 광범위한 스타일 공간을 열어준다. 광범위한 실험을 통해 CoTyle이 수치 코드를 스타일 제어자로 효과적으로 변환함을 입증하였으며, 시각적 스타일이 하나의 코드로 충분함을 보여주었다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
스타일 하나가 코드 하나보다 더 가치 있다: 이산 스타일 공간을 통한 코드에서 스타일 이미지 생성 해제 | 연구 논문 | HyperAI초신경