GestureGAN을 이용한 야외 환경에서의 손 제스처-제스처 변환

야외에서의 손동작 간 번역은 손동작이 임의의 자세, 크기, 위치 및 자기 가림 현상을 가질 수 있기 때문에 어려운 과제입니다. 따라서 이 작업은 입력 소스 동작과 출력 대상 동작 사이의 매핑에 대한 고차원적인 이해를 요구합니다. 이러한 문제를 해결하기 위해 우리는 새로운 손동작 생성적 적대 네트워크인 GestureGAN을 제안합니다.GestureGAN은 단일 생성기 ( G )와 판별기 ( D )로 구성되며, 조건부 손 이미지와 대상 손 뼈대 이미지를 입력으로 받습니다. GestureGAN은 손 뼈대 정보를 명시적으로 활용하며, 색상 손실(color loss)과 주기 일관성 손실(cycle-consistency loss)이라는 두 가지 새로운 손실을 통해 손동작 간 매핑을 학습합니다. 제안된 색상 손실은 그래디언트 역전파 과정에서 발생하는 "채널 오염" 문제를 처리합니다. 또한, 생성된 이미지의 품질을 평가하기 위해 프레셰 레즈넷 거리(Fr\'echet ResNet Distance, FRD)를 소개합니다.두 개의 널리 사용되는 벤치마크 데이터셋에 대한 광범위한 실험 결과는 제안된 GestureGAN이 제약 없는 손동작 간 번역 작업에서 최고 수준의 성능을 달성함을 보여줍니다. 동시에, 생성된 이미지는 고품질이며 사진처럼 실제적이어서, 이를 활용하여 손동작 분류기의 성능을 향상시키는 데이터 증강에 사용할 수 있습니다. 우리의 모델과 코드는 https://github.com/Ha0Tang/GestureGAN에서 확인할 수 있습니다.