Command Palette
Search for a command to run...
TwinFlow: 자기적대적 흐름을 활용한 대규모 모델에서의 원스텝 생성 구현
TwinFlow: 자기적대적 흐름을 활용한 대규모 모델에서의 원스텝 생성 구현
Zhenglin Cheng Peng Sun Jianguo Li Tao Lin
초록
최근 대규모 다중 모달 생성 모델의 발전은 이미지 및 비디오 생성을 포함한 다중 모달 생성 측면에서 놀라운 성능을 보여주고 있다. 이러한 모델들은 일반적으로 확산( diffusion)과 플로우 매칭(flow matching)과 같은 다단계 프레임워크를 기반으로 구축되며, 이는 추론 효율성에 본질적인 한계를 초래한다(함수 평가 횟수(Number of Function Evaluations, NFE) 40~100회 필요). 여러 단계 수를 줄이려는 다양한 소수단계 방법들이 제안되었지만, 기존 솔루션은 명확한 한계를 지닌다. 대표적인 정교화 기반 방법인 점진적 정교화(Progressive Distillation)와 일관성 정교화(Consistency Distillation)는 반복적인 정교화 절차를 필요로 하거나, 매우 소수의 단계(<4-NFE)에서 성능이 급격히 저하되는 문제가 있다. 한편, 정교화 과정에 적대적 학습을 통합한 방법(예: DMD/DMD2, SANA-Sprint)은 성능 향상을 도모하지만, 학습의 불안정성, 복잡성 증가, 보조 모델 학습으로 인한 고 GPU 메모리 사용량이라는 부작용을 동반한다. 이러한 문제를 해결하기 위해, 우리는 고정된 사전 학습된 교사 모델을 필요로 하지 않으며, 학습 과정에서 표준 적대적 네트워크를 사용하지 않는 간단하면서도 효과적인 1단계 생성 모델 훈련 프레임워크인 TwinFlow을 제안한다. 이는 대규모·고효율 생성 모델 구축에 이상적인 솔루션이다. 텍스트-이미지 생성 과제에서, 본 방법은 1-NFE(1회 함수 평가)로 GenEval 점수 0.83을 달성하여, GAN 손실 기반의 SANA-Sprint 및 일관성 기반의 RCGM과 같은 강력한 벤치마크를 초과하는 성능을 보였다. 특히, Qwen-Image-20B에 대해 전체 파라미터 훈련을 수행함으로써 TwinFlow의 확장 가능성을 입증하였으며, 이를 통해 효율적인 소수단계 생성기로 전환하였다. 단 1-NFE만으로도 원래의 100-NFE 모델과 동일한 성능을 GenEval 및 DPG-Bench 벤치마크에서 달성하였으며, 계산 비용을 100배 감소시키면서 품질 저하를 최소화하였다. 프로젝트 페이지는 https://zhenglin-cheng.com/twinflow 에서 확인할 수 있다.