2달 전

소수 샷 적대적 학습을 이용한 실제적인 신경망 토킹 헤드 모델의 학습

Egor Zakharov; Aliaksandra Shysheya; Egor Burkov; Victor Lempitsky
소수 샷 적대적 학습을 이용한 실제적인 신경망 토킹 헤드 모델의 학습
초록

최근 여러 연구에서는 합성곱 신경망을 훈련시켜 매우 사실적인 인간 얼굴 이미지를 생성하는 방법을 보여주었습니다. 개인화된 말하는 머리 모델을 만들기 위해서는 이러한 연구들이 단일 사람의 대규모 이미지 데이터셋에서 훈련이 필요합니다. 그러나 많은 실제 상황에서 이러한 개인화된 말하는 머리 모델은 사람이 몇 개의 이미지 뷰, 심지어 단일 이미지에서도 학습되어야 합니다. 이에 우리는 이러한 소수 샘플 학습(few-shot) 능력을 가진 시스템을 제시합니다. 이 시스템은 대규모 비디오 데이터셋에서 긴 시간 동안 메타학습을 수행하고, 그 후에는 이전에 본 적 없는 사람들의 신경망 기반 말하는 머리 모델의 소수 샘플 및 단일 샘플(one-shot) 학습을 고용량 생성기와 판별기로 구성된 적대적 훈련 문제로 정식화할 수 있습니다. 중요한 점은, 이 시스템이 생성기와 판별기의 매개변수를 사람 특异性(person-specific) 방식으로 초기화할 수 있다는 것입니다.这样一来,尽管需要调整数千万个参数,该系统仍然可以基于仅几张图像进行快速训练。我们展示了这种方法能够学习到非常逼真且个性化的新人物乃至肖像画的说话头模型。(번역 수정:)중요한 점은, 이 시스템이 생성기와 판별기의 매개변수를 사람 특유의 방식으로 초기화할 수 있다는 것입니다. 이렇게 하면, 수천만 개의 매개변수를 조정해야 하는 spite에도 불구하고, 몇 장의 이미지만으로도 빠르게 훈련할 수 있습니다. 우리는 이러한 접근법이 새로운 인물과 심지어 초상화까지 매우 사실적이고 개인화된 말하는 머리 모델을 학습할 수 있음을 보여줍니다.

소수 샷 적대적 학습을 이용한 실제적인 신경망 토킹 헤드 모델의 학습 | 최신 연구 논문 | HyperAI초신경