2ヶ月前
古典日本文学のための深層学習
Tarin Clanuwat; Mikel Bober-Irizar; Asanobu Kitamoto; Alex Lamb; Kazuaki Yamamoto; David Ha

要約
機械学習の研究の多くは、ベンチマークタスクで優れた性能を発揮するモデルの開発に焦点を当てており、それによってそのタスクに関連する課題の理解が深まっています。ML研究者の視点からすると、タスク自体の内容は大部分無関係であり、そのため社会的または文化的に重要な問題に焦点を当てるベンチマークタスクへの要望が高まっています。本研究では、草書体(くずしじ)に焦点を当てたデータセット「Kuzushiji-MNIST」を紹介します。さらに、より大規模で難易度の高い2つのデータセット「Kuzushiji-49」と「Kuzushiji-Kanji」も提供します。これらのデータセットを通じて、私たちは機械学習コミュニティを古典日本文学の世界へと引き込むことを目指しています。データセットは https://github.com/rois-codh/kmnist で利用可能です。