Verbesserung semantischer interpretierbarer Klauseln mittels vortrainierter Wortrepräsentationen

Der Tsetlin Machine (TM) ist ein interpretierbares Mustererkennungsalgorithmus, der auf aussagenlogischer Grundlage beruht und in vielen Aufgaben des Natural Language Processing (NLP), wie Sentimentanalyse, Textklassifikation und Wortbedeutungsentwicklung (Word Sense Disambiguation), wettbewerbsfähige Leistung erzielt hat. Um eine menschenähnliche Interpretierbarkeit zu gewährleisten, verwendet der herkömmliche TM boolesche Eingabemerkmale wie das Bag-of-Words (BOW)-Modell. Allerdings erschwert die BOW-Darstellung die Nutzung vorab trainierter Informationen, beispielsweise der Wortrepräsentationen wie word2vec oder GloVe. Diese Beschränkung hat die Leistungsfähigkeit des TM im Vergleich zu tiefen neuronalen Netzen (DNNs) im Bereich NLP eingeschränkt. Um diese Leistungslücke zu schließen, schlagen wir in diesem Artikel eine neuartige Methode zur Nutzung vorab trainierter Wortrepräsentationen für den Tsetlin Machine vor. Durch die Extraktion semantisch verwandter Wörter aus vorab trainierten Wortrepräsentationen als Eingabemerkmale für den TM wird sowohl die Leistung als auch die Interpretierbarkeit des Modells signifikant verbessert. Unsere Experimente zeigen, dass die Genauigkeit des vorgeschlagenen Ansatzes deutlich höher ist als die des herkömmlichen BOW-basierten TM und die Leistung von DNN-basierten Modellen erreicht.