
摘要
本文的目标是生成一段视觉效果吸引人的视频,该视频通过神经网络对音乐做出响应,使得每一帧视频都能反映相应音频片段的音乐特征。为了实现这一目标,我们提出了一种名为TräumerAI的神经音乐可视化器,它直接将深度音乐嵌入映射到StyleGAN的风格嵌入。TräumerAI由一个使用短时卷积神经网络(short-chunk CNN)的音乐自动标记模型和在WikiArt数据集上预训练的StyleGAN2组成。我们没有建立音乐和视觉语义之间的客观度量标准,而是以主观方式手动标注了这些配对。具体而言,注释者聆听了100段10秒长的音乐片段,并从200个由StyleGAN生成的示例图像中选择了一个与音乐相匹配的图像。基于收集的数据,我们训练了一个简单的转换函数,用于将音频嵌入转换为风格嵌入。生成的示例表明,音频与视频之间的映射在一定程度上实现了段内相似性和段间差异性。