要約
本稿では、くずし字MNISTおよびKuzushiji-49ベンチマークデータセットに対する分類を目的として、改良された効率的キャプセルネットワーク(Capsule Network, CN)モデルを提案する。CNは、従来の畳み込みニューラルネットワーク(CNN)と比較して、ロバスト性の向上、より優れた汎化性能、および簡潔なネットワーク構造といった利点を有する、深層学習分野における有望なアプローチである。本研究で提案するモデルは、Efficient CapsNetアーキテクチャを基盤とし、自己注意ルーティング機構を組み込むことで、計算効率の向上とパラメータ数の削減を実現した。くずし字MNISTおよびKuzushiji-49データセットにおける実験結果から、本モデルは両ベンチマークにおいてトップ10以内の性能を達成することが明らかになった。特に、上位評価を受けた競合モデルと比較して、大幅に少ないパラメータ数で同等の精度を達成しており、くずし字MNISTおよびKuzushiji-49データセットにおいて、それぞれ0.91%および1.97%のわずかな精度差にとどまる。さらに、これらの成果を達成するための学習時間も著しく短縮されており、専用ワークステーションを用いずに一般の非専門機器でも学習が可能となった。本モデルの新規性は、自己注意機構の統合と効率的なネットワーク構造の設計に起因し、性能と効率の両面で優れた結果をもたらした。これらの結果は、CNが文字分類タスクにおいてより効率的かつ効果的なアプローチである可能性を示しており、さまざまな分野への応用が期待される。