
要約
機械学習の長い歴史において、再帰型ニューラルネットワーク(RNN)は主に時系列データや順序データ、一般的には1次元の情報処理に用いられてきた。2次元画像に関する稀な研究においても、RNNは画像認識タスクではなく、データの順次的な学習や生成にのみ利用されるにとどまっていた。本研究では、画像認識モデルの設計においてRNNを追加層として統合する手法を提案する。さらに、複数のモデルを用いてエキスパート予測を生成するエンドツーエンドのマルチモデルアンサンブルを構築した。また、訓練戦略を拡張することで、最先端モデルと同等、あるいはいくつかの挑戦的なデータセット(例:SVHN(0.99)、Cifar-100(0.9027)、Cifar-10(0.9852))においても最良の性能を達成できるようにした。さらに、Surreyデータセットにおいても新たな記録を樹立した(0.949)。本論文で提示する手法のソースコードは、https://github.com/leonlha/e2e-3m および http://nguyenhuuphong.me にて公開されている。