HyperAI

튜토리얼 소개

이 튜토리얼은 PaintsUndo를 한 번의 클릭으로 실행하는 데모입니다. 관련 환경과 종속성이 설치되었습니다. 한 번의 클릭으로 복제하고 시작하여 체험해 볼 수 있습니다.

PaintsUndo는 인간의 그림 그리기 행동을 시뮬레이션할 수 있는 기본 모델입니다. 인간의 그림 그리기 행동에 대한 기본 모델을 제공하는 것을 목표로 합니다. 동시에, 미래의 AI 모델이 인간 예술가들의 실제적 요구를 더 잘 충족시킬 수 있기를 기대합니다. 이 프로젝트는 이미지를 입력으로 받아 해당 이미지의 일련의 그림을 출력하는 일련의 모델을 제공합니다. 이 모델은 스케치, 잉크, 음영 처리, 변형, 좌우 반전, 색상 곡선 조정, 레이어 가시성 변경, 심지어 그리기 과정에서 전반적인 아이디어 변경 등을 포함하되 이에 국한되지 않고, 그리기 과정 중의 인간 행동을 시뮬레이션합니다. "Paints-Undo"라는 이름은 AI 페인팅 소프트웨어에서 모델 출력이 "실행 취소" 버튼(일반적으로 Ctrl+Z)을 여러 번 누른 것과 유사하다는 데서 영감을 받았습니다.

이 프로젝트는 현재 단일 프레임 모델과 다중 프레임 모델, 두 가지 모델을 출시하고 있습니다.

단일 프레임 페인트 취소
페인트_실행_복수_프레임

단일 프레임 모델은 이미지와 a를 입력으로 받아서 이미지를 출력합니다.

예술 작품은 항상 1000번의 수작업으로 그려서 만들어질 수 있으며, 그림의 순서는 0에서 999까지의 정수라고 가정합니다. 0으로 표현된 순서는 최종 완성된 예술 작품이고, 999는 순수한 흰색 캔버스에 그려진 첫 번째 붓놀림입니다. 이 모델은 "실행 취소"(또는 Ctrl+Z) 모델이라고 생각할 수 있습니다.
최종 이미지를 입력하고 "Ctrl+Z"를 몇 번 누르고 싶은지 표시하세요. "Ctrl+Z"를 누르면 모델은 페인팅 과정의 스크린샷을 해당 개수만큼 생성합니다. 선택한 횟수가 100이면, "Ctrl+Z"를 100번 눌러서 이미지에 스크린샷을 찍으려는 것입니다.

다중 프레임 모델은 두 개의 이미지를 입력으로 받아서 두 입력 이미지 사이에 있는 16개의 중간 프레임을 출력합니다.

단일 프레임 모델과 비교했을 때 두 이미지의 차이는 작지만, 속도도 훨씬 느리고 무작위성이 떨어집니다.
이미지 생성은 16개 프레임으로 제한됩니다.

이 프로젝트의 빌드 방법에서는 기본 방법은 함께 사용하는 것입니다. 먼저, 단일 프레임 모델을 사용하여 약 5~7회 추론하여 5~7개의 "키 프레임"을 얻은 다음, 다중 프레임 모델을 사용하여 이러한 키 프레임을 "보간"하여 실제로 비교적 긴 비디오를 생성합니다. 결국, 보통 100개 정도의 중간 이미지를 얻을 수 있습니다.

이론적으로 이 시스템은 다양한 방법으로 활용될 수 있으며, 심지어 무한히 긴 영상을 제공하는 데에도 사용될 수 있지만, 실제로는 최종 프레임 수가 100~500개일 때 가장 잘 작동합니다.

이 튜토리얼에서는 리소스로 단일 RTX 5090 카드를 사용합니다.

효과 표시

실행 방법 (컨테이너 시작 후 초기화까지 약 10초 소요, 이후 다음 작업 수행)

1. 컨테이너를 복제하고 시작한 후 API를 브라우저에 복사합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

단일 프레임 모델 출력

전체 모델 출력

매개변수 설명

"작업 단계": 출력할 키 프레임의 순서를 선택할 수 있습니다. 선택하는 순서가 클수록 생성된 이미지가 원본 이미지와 유사해집니다.
「1단계 시드」: 키프레임 생성을 위한 시드를 무작위로 선택할 수 있습니다.
"단계": 프레임당 모델이 실행되는 단계 수를 선택할 수 있습니다.
「CFG 스케일」: 생성되는 이미지의 무작위성을 제어할 수 있습니다. 값이 작을수록 생성되는 이미지의 무작위성이 높아집니다.
「부정적 프롬프트」: 생성된 이미지에 부정적인 단어가 포함된 상황을 완화하기 위해 부정적인 단어를 입력합니다.

비디오 생성

매개변수 설명

「프롬프트」: 긍정적인 프롬프트를 채워 생성된 이미지의 품질과 콘텐츠를 개선합니다.
「2단계 시드」: 이미지 생성을 위해 무작위로 시드를 선택할 수 있습니다.
「CFG 스케일」: 생성되는 이미지의 무작위성을 제어할 수 있습니다. 값이 작을수록 생성되는 이미지의 무작위성이 높아집니다.
"샘플링 단계": 샘플링의 반복 횟수를 변경할 수 있습니다. 값이 클수록 생성된 이미지의 정확도가 높아집니다.
"FPS": 생성된 비디오의 프레임 속도를 변경할 수 있습니다. 기본값은 4프레임으로, 이는 비디오에 초당 4개의 이미지가 생성된다는 것을 의미합니다.

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@Misc{paintsundo,
  author = {Paints-Undo Team},
  title  = {Paints-Undo GitHub Page},
  year   = {2024},
}
@article{paintsalter,
    author = {Zhang, Lvmin and Yan, Chuan and Guo, Yuwei and Xing, Jinbo and Agrawala, Maneesh},
    title = {Generating Past and Future in Digital Painting Processes},
    journal = {ACM Transactions on Graphics (SIGGRAPH 2025)},
    year = {2025},
    volume = {44},
    number = {4},
    articleno = {127},
    numpages = {13},
}

한 장의 그림으로 그림을 생성하는 전체 과정을 보여주는 Paints-Undo 데모

튜토리얼 소개

효과 표시