Varianzbasierende Merkmalsrelevanz in neuronalen Netzen
Diese Arbeit stellt eine neue Methode zur Messung der relativen Bedeutung von Merkmalen in künstlichen neuronalen Netzen (ANN) vor. Der zugrundeliegende Ansatz geht davon aus, dass ein Merkmal umso wichtiger ist, je stärker die Gewichte, die mit dem jeweiligen Eingabeneuron verbunden sind, während des Trainings des Modells verändern. Um dieses Verhalten zu erfassen, wird während des Trainings die laufende Varianz jedes Gewichts, das mit der Eingabeschicht verbunden ist, gemessen. Dazu wird eine Anpassung des Welford-Algorithmus zur Online-Berechnung der Varianz vorgeschlagen. Sobald das Training abgeschlossen ist, werden die Varianzen der Gewichte für jedes Eingabemerkmal mit den finalen Gewichten kombiniert, um eine Maßzahl für die relative Bedeutung jedes Merkmals zu erhalten. Die Methode wurde an mehreren bekannten Klassifikations- und Regressionsproblemen anhand flacher und tiefer neuronaler Netzarchitekturen getestet. Die Ergebnisse bestätigen, dass dieser Ansatz sinnvolle Messungen liefert. Zudem zeigten sich hohe Korrelationen zwischen den ermittelten Bedeutungsscores und den Variablenimportanzwerten des Random Forests (RF)-Verfahrens.