Verbesserung polyphoner Musikmodelle durch feature-reiche Kodierung

Dieses Papier untersucht die sequenzielle Modellierung von polyphonem Musik mit tiefen neuronalen Netzen. Während kürzliche Durchbrüche sich auf die Netzarchitektur konzentriert haben, zeigen wir, dass die Darstellung der Sequenz einen ebenso bedeutenden Beitrag zur Leistung des Modells leisten kann, wie dies durch den Verlust auf der Validierungsdatensatz gemessen wird. Durch das Extrahieren charakteristischer Merkmale, die dem Trainingsdatensatz inhärent sind, kann das Modell entweder an diese Merkmale angepasst werden oder trainiert werden, um diese Merkmale als zusätzliche Komponenten der zu modellierenden Sequenzen vorherzusagen. Wir demonstrieren, dass das Training eines neuronalen Netzes zur Vorhersage einer scheinbar komplexeren Sequenz, bei der zusätzliche Merkmale in der zu modellierenden Serie enthalten sind, die Gesamtleistung des Modells erheblich verbessern kann. Zunächst stellen wir TonicNet vor, ein GRU-basiertes Modell (GRU = Gated Recurrent Unit), das zunächst den Akkord zu einem bestimmten Zeitpunkt vorhersagt und dann die Noten jeder Stimme zu diesem Zeitpunkt voraussagt, im Gegensatz zum üblichen Ansatz, nur die Noten vorherzusagen. Anschließend bewerten wir TonicNet am kanonischen JSB-Choräle-Datensatz und erzielen Stand-of-the-Art-Ergebnisse (state-of-the-art).