il y a 2 mois

La Machine de Tsetlin Convolutionnelle

Ole-Christoffer Granmo; Sondre Glimsdal; Lei Jiao; Morten Goodwin; Christian W. Omlin; Geir Thore Berge

Résumé

Les réseaux de neurones convolutifs (CNNs) ont obtenu des succès étonnants dans des tâches importantes de reconnaissance de formes, mais ils souffrent d'une complexité computationnelle élevée et d'un manque d'interprétabilité. La machine Tsetlin (TM) récente tente de combler ce manque en utilisant des clauses conjonctives faciles à interpréter dans la logique propositionnelle pour résoudre des problèmes complexes de reconnaissance de formes. La TM offre une précision compétitive dans plusieurs benchmarks tout en conservant la propriété importante de l'interprétabilité. Elle facilite également l'implémentation proche du matériel car les entrées, les motifs et les sorties sont exprimés sous forme de bits, tandis que la reconnaissance et l'apprentissage reposent sur des manipulations bit à bit simples. Dans cet article, nous exploitons le paradigme de la TM en introduisant la machine Tsetlin convolutive (CTM), comme une alternative interprétable aux CNNs. Alors que la TM catégorise une image en appliquant chaque clause une fois à l'image entière, la CTM utilise chaque clause comme un filtre de convolution. Cela signifie qu'une clause est évaluée plusieurs fois, une fois par patch d'image participant à la convolution. Pour rendre les clauses sensibles à la position, chaque patch est augmenté par ses coordonnées au sein de l'image. La sortie d'une clause convolutive est obtenue simplement en effectuant un OU logique sur le résultat de l'évaluation de la clause sur chaque patch. Pendant la phase d'apprentissage de la TM, les clauses qui évaluent à 1 sont contrastées avec l'entrée. Pour la CTM, nous contrastons plutôt avec l'un des patches, sélectionné aléatoirement parmi les patches qui ont fait évaluer la clause à 1. En conséquence, le feedback standard de type I et II du TM classique peut être utilisé directement sans modification supplémentaire. La CTM atteint une précision maximale de test de 99,4 % sur MNIST, 96,31 % sur Kuzushiji-MNIST, 91,5 % sur Fashion-MNIST et 100,0 % sur le problème 2D Noisy XOR (XOR bruyant), ce qui est compétitif avec les résultats rapportés pour des CNNs simples à 4 couches, BinaryConnect, circuits logistiques et un CNN binaire accéléré par FPGA.