
要約
本論文の目的は、音楽に反応する視覚的に魅力的なビデオをニューラルネットワークを使用して生成することである。これにより、ビデオの各フレームが対応するオーディオクリップの音楽的特性を反映させることが可能となる。この目標を達成するために、私たちは深層音楽埋め込みをStyleGANのスタイル埋め込みに直接マッピングするニューラル音楽ビジュアライザ―「TräumerAI」を提案する。TräumerAIは、短区間CNN(short-chunk CNN)を使用した音楽自動タグ付けモデルと、WikiArtデータセットで事前学習されたStyleGAN2から構成される。音楽的意味と視覚的意味の間の客観的な指標を確立するのではなく、主観的な方法でペアを手動でラベリングした。アノテーターは10秒間の100曲の音楽クリップを聞き、200枚のStyleGAN生成画像の中から音楽に適した画像を選択した。収集されたデータに基づいて、オーディオ埋め込みをスタイル埋め込みに変換する単純な転送関数を訓練した。生成された例では、オーディオとビデオの間での一定レベルのセグメント内類似性とセグメント間非類似性が示されている。