畳み込みツェトリンマシン

畳み込みニューラルネットワーク(CNN)は重要なパターン認識タスクにおいて驚異的な成功を収めていますが、計算量の高さと解釈可能性の欠如という問題を抱えています。最近のツェトリンマシン(Tsetlin Machine: TM)は、命題論理における解釈可能な連言節を使用することで、複雑なパターン認識問題を解決することを目指しています。TMはいくつかのベンチマークで競合する精度を提供しつつ、解釈可能性という重要な特性を維持しています。さらに、入力、パターン、出力をビットとして表現し、認識と学習が単純なビット操作に依存しているため、ハードウェア近傍実装が容易になります。本稿では、TMのパラダイムを活用し、CNNの解釈可能な代替手段として畳み込みツェトリンマシン(Convolutional Tsetlin Machine: CTM)を導入します。TMは各節を画像全体に対して一度だけ使用して画像を分類しますが、CTMは各節を畳み込みフィルターとして使用します。つまり、節は畳み込みに参加する各画像領域に対して一度ずつ評価されます。節が位置情報を認識できるようにするために、各領域にはその画像内での座標情報が追加されます。畳み込み節の出力は、各領域での節の評価結果をOR演算することで簡単に得られます。TMの学習フェーズでは、1と評価された節が入力に対して対比されます。CTMでは代わりに、1と評価された領域の中からランダムに選択された一つの領域に対して対比を行います。したがって、従来のTMにおける標準的なタイプIおよびタイプIIフィードバックが直接適用でき、さらなる変更なしで利用可能です。CTMはMNISTデータセットで99.4%、Kuzushiji-MNISTデータセットで96.31%、Fashion-MNISTデータセットで91.5%、2DノイジーXOR問題で100.0%というテスト精度ピーク値を達成しました。これは単純な4層CNNやBinaryConnect、ロジスティック回路およびFPGA加速型バイナリCNNで報告されている結果と競合するものです。