Schräg angeordnete Entscheidungsbäume aus Ableitungen von ReLU-Netzwerken

Wir zeigen, wie neuronale Modelle eingesetzt werden können, um stückweise konstante Funktionen wie Entscheidungsbäume zu realisieren. Der vorgeschlagene Architekturansatz, den wir lokal konstante Netze nennen, basiert auf ReLU-Netzen, die stückweise linear sind und daher ihre bezüglich der Eingaben abgeleiteten Gradienten lokal konstant sind. Wir etablieren formell die Äquivalenz zwischen den Klassen lokaler konstanter Netze und Entscheidungsbäume. Darüber hinaus weisen wir mehrere vorteilhafte Eigenschaften lokaler konstanter Netze nach, darunter die Realisierung von Entscheidungsbäumen mit Parameterfreigabe über Verzweigungen und Blätter hinweg. Tatsächlich genügen bereits $M$ Neuronen, um implizit einen schrägen Entscheidungsbaum mit $2^M$ Blättern zu modellieren. Die neuronale Darstellung ermöglicht zudem die Anwendung vieler für tiefe Netze entwickelter Werkzeuge (z. B. DropConnect (Wan et al., 2013)), während Entscheidungsbäume implizit trainiert werden. Wir demonstrieren, dass unsere Methode alternative Techniken zum Training schräger Entscheidungsbäume im Kontext der Klassifikation und Regression molekularer Eigenschaften übertrifft.