2달 전

TräumerAI: StyleGAN을 이용한 꿈의 음악 생성

Dasaem Jeong; Seungheon Doh; Taegyun Kwon
TräumerAI: StyleGAN을 이용한 꿈의 음악 생성
초록

이 논문의 목표는 신경망을 사용하여 음악에 반응하는 시각적으로 매력적인 비디오를 생성하는 것입니다. 이를 통해 비디오의 각 프레임이 해당 오디오 클립의 음악적 특성을 반영하도록 합니다. 이 목표를 달성하기 위해, 우리는 StyleGAN의 스타일 임베딩으로 딥 뮤직 임베딩을 직접 매핑하는 신경 음악 시각화기인 TräumerAI를 제안합니다. TräumerAI는 10초 길이의 짧은 조각 CNN(short-chunk CNN)을 사용한 음악 자동 태깅 모델과 WikiArt 데이터셋에서 사전 학습된 StyleGAN2로 구성됩니다.음악적 의미와 시각적 의미 사이의 객관적인 측정 기준을 설정하지 않고, 주관적인 방식으로 쌍들을 수동으로 라벨링했습니다. 주석자(annotator)는 100개의 10초 길이 음악 클립을 듣고, 200개의 StyleGAN 생성 예제 중에서 음악에 맞는 이미지를 선택했습니다. 수집된 데이터를 바탕으로, 오디오 임베딩을 스타일 임베딩으로 변환하는 간단한 전송 함수를 훈련시켰습니다. 생성된 예제들은 오디오와 비디오 간의 매핑이 일정 수준의 세그먼트 내 유사성과 세그먼트 간 차이성을 보여줍니다.

TräumerAI: StyleGAN을 이용한 꿈의 음악 생성 | 최신 연구 논문 | HyperAI초신경