50억 뷰, 1700만 명이 참여한 '변신만화', 더우인팀 CSDN 인터뷰 수락

최근 몇 년 동안 다양한 사진 편집, 미용, 특수 효과 애플리케이션이 사용자들 사이에서 큰 인기를 얻고 있습니다. 최근 두인의 새로운 '만화 변신' 특수효과가 다시 화제가 되고 있다. 인기 폭발의 핵심 기술은 무엇인가?
편집자: NeuroXiaoxi
이 내용은 CSDN과 ByteFan에서 수집되었습니다(기사 끝에 링크가 첨부되어 있습니다)
최근 틱톡에서 '만화로 변신'하는 특수효과가 인기를 끌고 있어, 지나가는 사람부터 연예인까지 누구나 시도해보지 않을 수 없게 됐다.
단 1초 만에, 당신은 2차원 세계에 있는 자신을 볼 수 있습니다. 큰 눈물방울과 흰 피부, 에너지가 넘치는 모습.


현재까지 더우인에서 '만화로 변신' 특수효과를 활용한 영상을 제작한 사용자는 1,770만 명이 넘으며, 이 영상 시리즈는 누적 조회수 56억 7천만 건을 기록했습니다.
1년 전의 영감, GAN을 사용하여 돌파구 마련
이 특수효과는 사용하기 쉽고 변신하는 데 걸리는 시간은 단 1초에 불과하지만, 이러한 성공은 실제로 Douyin 비디오 팀의 오랜 연구 개발과 다듬기의 결과입니다.
2018년에 ByteDance는 특별한 이미징 팀을 구성했습니다.Tik Tok, Volcano, Qingyan 등 전체 제품 시리즈의 다듬기를 지원하고, 실인칭 스타일의 게임 플레이에 대한 장기적인 탐구를 포함하며, 사용자에게 감동을 주는 특수효과를 끊임없이 만들기 위해 노력합니다.

기술 매체 CSDN은 관련 팀에 가능한 한 빨리 인터뷰를 진행했고, 그 내용의 일부를 인용했습니다.
이번에 출범한 "트랜스포메이션 만화" 프로젝트의 영감은 약 1년 전의 브레인스토밍 회의에서 나왔습니다.
브레인스토밍 세션 중에 알게 된 것은,"실제 사람을 몇 초 만에 만화 얼굴로 바꾸는" 아이디어가 나왔습니다.그 아이디어는 팀을 들뜨게 했다.
말한 대로 하세요. 2019년 9월, Douyin 비디오 팀은 협업 지원을 위해 R&D, 디자인 및 기타 분야의 동료를 급히 영입했습니다.
이번에 틱톡이 선보인 만화변신 특수효과에 사용된 주요 기술은 여전히 GAN이지만, 과거와 비교했을 때 몇 가지 차이점도 있습니다.팀은 GAN을 기반으로 새로운 시도를 추가했습니다.
실제로 최종 기술 선정에 앞서 Douyin의 실시간 만화 특수효과는 우가티트(ugatit)와 같은 만화 생성 방식과 MUNIT과 같은 다른 작업을 위한 방식을 포함한 다수의 현세대 기술 방식을 비교했다.
그러나 연구 결과에서는현재 만화 생성이나 스타일 전송과 같은 작업에 사용되는 GAN에는 몇 가지 문제가 있습니다.
첫째, 훈련이 불안정하다. 둘째, 하이퍼파라미터를 조금만 조정해도 결과에 상당한 영향을 미칠 수 있습니다. 더욱이, 그래디언트가 사라지는 문제가 발생하기 쉽습니다.
이와 관련하여,Douyin의 개선 계획은 WGAN, LSGAN 등을 포함한 여러 손실을 시도하는 것입니다.하지만 아직까지 확실한 해결책은 없으므로 실험 중에 기울기의 변화를 모니터링하는 것이 필요합니다.

더우인의 기술팀은 만화 영상 기술을 모색하는 과정에서 초기 시도에서 많은 좌절을 겪었다고 밝혔습니다. 초기 예비조사에서는 출력버전과 사진버전이 상당히 달랐고, 성능도 기준에 미치지 못했습니다.
몇 차례의 만족스럽지 못한 시도 끝에, 팀은 실시간 만화의 실현 가능성에 의심을 품기 시작했습니다.
다행히도 여러 차례의 실패 끝에 누군가가 경험을 요약하면서 핵심을 지적해 주었습니다.이전 모델은 단일 구조를 가지고 있었고, 다양한 모델의 장단점이 완벽하게 일관되지 않았습니다.
그 다음에,기술팀은 다양한 모듈을 사용하여 새로운 모델을 이어붙이는 모델 접목 방법을 시도했고, 이를 통해 만화 생성의 품질이 크게 향상되었습니다.

품질 기준이 충족된 후, 각 계층의 중요도를 계산하여 모델을 다듬고, 마지막으로 실시간 모델의 구조를 결정했습니다.
성능 제품 팀은 또한 모델 성능 튜닝에 참여하고, 매개변수와 효과 간의 정량적 관계를 요약하며, 매개변수를 미세하게 튜닝하여 모델을 최적화합니다. 마침내 이 히트상품이 탄생했습니다.
실시간으로 만화로 변환하는 데는 많은 어려움이 있습니다. 이를 극복하는 방법은?
"트랜스포메이션 만화"의 가장 매력적인 측면 중 하나는 실시간 변신입니다.
그렇다면 정지영상 처리와 비교했을 때, 특히 모바일폰에서 실시간 만화 처리를 구현하는 데 어려움은 무엇일까요?
Douyin 기술팀은 실시간 비디오 만화 처리가 여전히 매우 어렵다고 말했습니다. 예를 들어:
- 첫째, 모델 자체의 계산 복잡도는 매우 작아야 합니다. 제한된 계산 복잡도로 좋은 만화 효과를 얻으려면 각 연산의 가치를 최대한 활용하는 것이 필요합니다.
- 둘째, Douyin은 많은 사용자를 보유하고 있으며, 사용자가 사용하는 모델의 성능 편차가 크기 때문에 복잡하고 맞춤형 모델 전달 전략을 특별히 개발할 필요가 있습니다.
Douyin은 다양한 레벨의 사용자 요구를 충족하기 위해 복잡한 모델 배포 전략을 개발하고 맞춤형 모델 배포를 실현했습니다. 이를 통해 실시간 만화의 성공적인 출시가 보장되었고, 효과와 성능 면에서 실시간 만화의 요구를 충족할 수 있었습니다.
또한,Tik Tok 만화 특수효과는 ByteDance가 자체 개발한 추론 엔진인 ByteNN을 사용합니다.엣지 사이드 알고리즘의 빠른 구현을 위해 설계된 이 추론 엔진은 CPU와 GPU의 일반적인 컴퓨팅 기능을 지원할 뿐만 아니라 제조업체의 NPU/DSP 하드웨어의 가속 기능도 최대한 활용하여 실시간 만화가 TikTok의 방대한 사용자 기반을 안정적으로 지원할 수 있도록 보장합니다.
물론, 실시간 만화 효과를 위한 현재 알고리즘은 일부 특수 시나리오에 맞게 최적화할 여지가 아직 있습니다. 이후 반복 작업에서는 모델 자체와 추론 엔진 모두에서 시작하여 추론 성능을 최적화하는 동시에 모델 효과를 개선할 것입니다.
ByteDance Imaging Team: 만화 필터는 사실적이면서도 아름다워야 합니다.
최근 몇 년 동안 만화적, 손으로 그린 듯한 스타일의 특수효과가 잇따라 등장했습니다.팀이 직면한 어려운 문제는 어떻게 눈에 띄고 인기를 얻을 수 있느냐는 것입니다.
ByteDance의 이미징 팀의 Da Peng에 따르면 가장 중요한 것은목표는 사용자에게 놀라움과 공감을 선사하는 것입니다.
한편, '트랜스포메이션 코믹스'의 특수효과팀은이는 '유사성'과 '아름다움'을 모두 실현합니다.한편, 기술의 지속적인 개선을 통해수천 명의 사람들의 수천 개의 얼굴을 실시간으로 변형하는 효과가 달성되었습니다.
프로젝트팀의 유천(Yu Chen)은 "'절묘한 아름다움'과 '극도로 유사함'이라는 두 가지 주요 특징을 정의했습니다. 사용자의 특징을 완벽하게 유지하면서도 실제 사람과 비슷하게 보이도록 하는 동시에 만화만의 독특한 예술적 아름다움을 구현해야 했습니다."라고 말했습니다.
또한 팀은 일본, 중국, 한국 만화의 이미지적 강점을 결합하여 최종 버전의 만화를 디자인했으며, 그 미학적 측면이 널리 인정을 받았습니다.

게임 플레이 측면에서 팀은 최종적으로 손 흔들기, 고개 끄덕이기, 기타 변신 방법 등 6가지 창의적인 소품을 선택하여 상호작용 경험을 개선하고 다양한 연령, 수준, 선호도를 가진 사용자의 요구를 고려했습니다.
GAN: 이미지 생성 분야의 중요한 마법 무기
이 히트 상품의 기본 기술인 GAN(Generative Adversarial Networks)에 대해 알아보겠습니다.
최근 몇 년 동안 GAN을 기반으로 한 연구가 본격화되었습니다. 이미지 생성 및 변환에 대한 연구 결과가 쏟아져 나올 때마다 GAN 기술이 거의 항상 활용됩니다.
2014년 이언 굿펠로우와 그의 팀은 "생성적 적대 신경망(Generative Adversarial Networks)"이라는 제목의 논문을 발표했는데, 여기서 그들은 GAN이라는 딥 러닝 모델을 개척했습니다.

GAN 모델의 주요 구조는 생성자 G(Generator)와 판별자 D(Discriminator)로 구성됩니다.이 모델의 훈련은 적대적 게임 상태에 있습니다.
적대적 게임의 개념을 사용하여 학습 과정에서 생성자 G의 목표는 판별자 D를 속이기 위해 가능한 한 사실적인 이미지를 생성하는 것입니다. D의 목표는 G가 생성한 이미지와 실제 이미지를 구별하는 것입니다. 이런 식으로 G와 D는 역동적인 "게임 과정"을 구성합니다.
게임의 최종 결과는 어떻게 되나요? 즉, 이상적인 조건 하에서 G는 실제라고 착각할 만큼 "실제"적인 이미지를 생성할 수 있습니다.
평범한 사람의 관점에서 보면, G는 마치 예술 작품을 위조한 사람과 같아서 감별사 D를 속이기 위해 가능한 모든 방법을 시도하다가 결국 진짜와 가짜를 구별하기 어려운 작품을 만들어냅니다.
최근 몇 년 동안 GAN의 활용은 매우 풍부하다고 할 수 있습니다. 예를 들어, 애니메이션 캐릭터를 생성하는 데 사용됩니다.

CycleGAN을 사용한 이미지 변환:

NVIDIA가 2018년에 제안한 StyleGAN은 가짜 초상화를 생성합니다.

출처:
https://mp.weixin.qq.com/s/lLfp8F6G2uHxYpCMCF1Tmw
https://mp.weixin.qq.com/s/WeZD__I7Y98Fg18pEZ9L9g
-- 위에--