
テキスト認識は、多数の関連課題を抱える重要なコンピュータビジョンタスクである。その中でも伝統的な課題の一つとして、テキスト認識とセグメンテーションの密接な結合性が挙げられる。この問題は過去数十年にわたり、セグメンテーションを前提とした認識から、セグメンテーションフリーなアプローチへと進化することで、徐々に解決されてきた。特に、セグメンテーションフリー手法は、より高い精度を達成するとともに、データのアノテーションコストを大幅に削減できることが実証されている。本研究では、セグメンテーションフリーな単行認識から、セグメンテーションフリーな多行/全文ページ認識へと一歩踏み出す。我々は、任意のCTC学習済み完全畳み込み型単行テキスト認識器を、空間的表現能力を十分に備えた新たなニューラルネットワークモジュール「\textbf{OrigamiNet}」によって多行対応に拡張する手法を提案する。このモジュールにより、2次元入力信号を1次元に適切に圧縮しつつ情報損失を防ぐことが可能となる。修正されたネットワークは、従来の単純な学習手順をそのまま利用でき、さらにアノテーション済みのテキストと画像ペアに加えて、非セグメンテーション済みの画像とテキストペアのみを用いて学習が可能である。また、解釈性実験を通じて、学習済みモデルが正確な暗黙的な行分割を学習していることを示した。手書き文字認識の標準ベンチマークであるIAMおよびICDAR 2017 HTRにおいて、従来のあらゆる手法を上回る最先端の文字誤り率(Character Error Rate)を達成した。特にIAMデータセットでは、訓練時に正確な位置情報を利用した単行認識手法をも上回る結果を得た。本研究のコードは、\url{https://github.com/IntuitionMachines/OrigamiNet} にて公開されている。