
要約
私は、バングラ文字の手書き文字認識(HCR)に対して、バングラ文字アルファベット、複合文字および数字を含む課題に対して、最新の深層ニューラルネットワークアーキテクチャを提案する。このモデルはわずか11エポックで96.8%という最先端の精度を達成した。以前、チャッタージー、スワガト、らによって類似の研究が行われていたが、彼らは約47エポックを要し、96.12%の精度に留まった。当該論文で用いられた深層ニューラルアーキテクチャは、ResNet50モデル(50層の残差ネットワーク)の重みを含むことから、相当大きな規模であった。一方、本提案モデルは、過去のあらゆる先行研究を上回る精度を、はるかに少ないエポック数で達成している。ResNet50はImageNetデータセットで事前学習された優れたモデルではあるが、本研究では、Ensemble Learningを用いずに、バングラ文字データセットから完全にゼロから学習を行うHCRネットワークを提案する。この新アーキテクチャは、既存のモデルを上回る性能を発揮することが期待される。