Der gewichtete Tsetlin-Maschinen: Komprimierte Darstellungen mit gewichteten Klauseln

Der Tsetlin Machine (TM) ist ein interpretierbares Verfahren zur Mustererkennung, das aus Daten konjunktive Klauseln konstruiert. Diese Klauseln erfassen häufig auftretende Muster mit hoher Trennschärfe und erweitern ihre Ausdruckskraft mit jeder zusätzlichen Klausel. Die resultierende Genauigkeitssteigerung geht jedoch mit einem linearen Anstieg von Rechenzeit und Speicherbedarf einher. In diesem Artikel stellen wir den gewichteten Tsetlin Machine (WTM) vor, der die Rechenzeit und den Speicherverbrauch durch Gewichtung der Klauseln reduziert. Die Verwendung reeller Gewichte ermöglicht es, eine einzelne Klausel durch mehrere zu ersetzen, und unterstützt eine feinabgestimmte Beeinflussung des Einflusses jeder Klausel. Unser neuartiges Verfahren lernt gleichzeitig die Zusammensetzung der Klauseln und deren Gewichte. Darüber hinaus steigern wir die Trainings-Effizienz, indem wir $k$ Bernoulli-Versuche mit Erfolgswahrscheinlichkeit $p$ durch eine gleichverteilte Stichprobe mit durchschnittlicher Größe $p k$ ersetzen, wobei die Größe aus einer Binomialverteilung gezogen wird. In unserer empirischen Evaluierung erreichte der WTM auf den Datensätzen MNIST, IMDb und Connect-4 dieselbe Genauigkeit wie der TM, benötigte jedoch lediglich $1/4$, $1/3$ und $1/50$ der Klauseln. Bei gleichem Klauselumfang übertraf der WTM den TM und erzielte Spitzen-Testgenauigkeiten von jeweils $98,63\%$, $90,37\%$ und $87,91\%$. Schließlich reduzierte unser neuartiges Stichprobenverfahren die Generierungszeit der Stichproben um den Faktor 7.