密で多様なカプセルネットワーク:カプセルの学習を改善する

ここ数年、深層学習手法への関心が指数関数的に高まり、精度が急速に向上し、計算の複雑さが減少しています。特に、畳み込みニューラルネットワーク(CNN)を使用したアーキテクチャは、画像分類や物体認識タスクにおいて最先端の性能を達成してきました。最近では、カプセルネットワーク(CapsNet)がCNNの姿勢と変形を符号化する際の固有の制限に対処することで、性能に大幅な向上をもたらしました。このような進歩に触発され、「私たちはさらに良いことができるのか?」という問いを自分たちに投げかけました。本研究では、Dense Capsule Networks(DCNet)とDiverse Capsule Networks(DCNet++)を提案します。提案された2つのフレームワークは、標準的な畳み込み層を密集接続畳み込み層に置き換えることでCapsNetをカスタマイズしています。これにより、異なる層で学習された特徴マップがプライマリカプセルの形成に組み込まれるようになります。DCNetは基本的により深い畳み込みネットワークを追加することで、判別的な特徴マップの学習を促進します。さらに、DCNet++は階層構造を使用して空間情報を細かいものから粗いものへと表現するカプセルを学習し、複雑なデータの学習効率を高めます。ベンチマークデータセットを使用した画像分類タスクにおける実験結果は、提案されたアーキテクチャの有効性を示しています。DCNetはMNISTデータセットで99.75%という最先端の性能を達成し、従来のCapsNetと比較して総トレーニングイテレーション数が20倍減少しました。また、DCNet++はSVHNデータセットでCapsNetよりも優れた性能(96.90%)を示し、CIFAR-10では7つのCapsNetモデルのアンサンブルよりも0.31%高い精度を達成しながら、パラメータ数が7倍減少しました。