vor 2 Monaten

Die Faltungs-Tsetlin-Maschine

Ole-Christoffer Granmo; Sondre Glimsdal; Lei Jiao; Morten Goodwin; Christian W. Omlin; Geir Thore Berge

Abstract

Faltungsschichtneuronale Netze (CNNs) haben bei wichtigen Mustererkennungsaufgaben erstaunliche Erfolge erzielt, leiden jedoch unter hoher rechnerischer Komplexität und mangelnder Interpretierbarkeit. Das neuartige Tsetlin-Maschinengelehrte (TM) versucht, diesen Mangel zu beheben, indem es verständliche konjunktive Klauseln der Aussagenlogik verwendet, um komplexe Mustererkennungsprobleme zu lösen. Die TM erreicht wettbewerbsfähige Genauigkeit in mehreren Benchmarks, während sie die wichtige Eigenschaft der Interpretierbarkeit beibehält. Sie erleichtert zudem eine nahe an Hardware implementierte Lösung, da Eingaben, Muster und Ausgaben als Bits dargestellt werden und sowohl die Erkennung als auch das Lernen auf einfachen Bitmanipulationen basieren.In dieser Arbeit nutzen wir das Paradigma der TM, indem wir die Faltungsschicht-Tsetlin-Maschine (CTM) einführen, als eine interpretierbare Alternative zu CNNs. Während die TM ein Bild durch einmaliges Anwenden jeder Klausel auf das gesamte Bild kategorisiert, verwendet die CTM jede Klausel als Faltungsfilter. Das bedeutet, dass eine Klausel mehrfach evaluiert wird, jeweils einmal pro Bildausschnitt, der an der Faltung beteiligt ist. Um den Klauseln Ortsbewusstsein zu verleihen, werden die Koordinaten jedes Ausschnitts innerhalb des Bildes hinzugefügt. Die Ausgabe einer Faltungs-Klausel wird einfach durch das Oder-Verknüpfen der Ergebnisse der Evaluiierung der Klausel auf jedem Ausschnitt erhalten.Während im Lernphasen der TM Klauseln, die den Wert 1 ergeben, mit dem Eingang verglichen werden, wählen wir für die CTM einen der Ausschnitte aus, die zufällig aus denjenigen ausgewählt wurden, die dazu führten, dass die Klausel den Wert 1 ergab. Demgemäß können die Standard-Typ-I- und Typ-II-Rückmeldungen des klassischen TMs direkt angewendet werden, ohne weitere Modifikationen.Die CTM erreicht eine maximale Testgenauigkeit von 99,4 % auf MNIST, 96,31 % auf Kuzushiji-MNIST, 91,5 % auf Fashion-MNIST und 100 % auf dem 2D Rausch-XOR-Problem (Noisy XOR Problem). Diese Ergebnisse sind wettbewerbsfähig mit denen einfacher vier-schichtiger CNNs sowie von BinaryConnect-, Logistischen Schaltkreisen und einem FPGA-beschleunigten binären CNN berichtet worden.