La Machine de Tsetlin pondérée : Représentations compressées avec des clauses pondérées

La Machine de Tsetlin (TM) est un mécanisme interprétable pour la reconnaissance de motifs, qui construit des clauses conjonctives à partir des données. Ces clauses captent des motifs fréquents possédant un fort pouvoir discriminant, offrant une puissance d'expression croissante avec chaque clause supplémentaire. Toutefois, l'amélioration de précision obtenue s'accompagne d'une croissance linéaire du temps de calcul et de l'utilisation de la mémoire. Dans cet article, nous présentons la Machine de Tsetlin Pondere (WTM), qui réduit le temps de calcul et l'utilisation de la mémoire grâce à un pondérage des clauses. Le pondérage à valeurs réelles permet à une seule clause de remplacer plusieurs, tout en permettant un ajustement fin de l'impact de chaque clause. Notre nouvelle approche apprend simultanément la composition des clauses et leurs poids. En outre, nous améliorons l'efficacité de l'entraînement en remplaçant $k$ essais de Bernoulli de probabilité de succès $p$ par un échantillonnage uniforme de taille moyenne $p k$, la taille étant tirée selon une distribution binomiale. Dans notre évaluation empirique, la WTM atteint la même précision que la TM sur les jeux de données MNIST, IMDb et Connect-4, tout en nécessitant respectivement seulement $1/4$, $1/3$ et $1/50$ du nombre de clauses. Avec le même nombre de clauses, la WTM surpasse la TM, obtenant des précisions maximales sur les tests de respectivement $98,63\%$, $90,37\%$ et $87,91\%$. Enfin, notre nouvelle méthode d'échantillonnage réduit le temps de génération des échantillons d'un facteur 7.