
要約
現在、非構造的な環境下で手持ち端末を用いて文書画像を撮影することは一般的な習慣となっている。しかし、「手軽な」文書画像は、紙の物理的歪みやカメラの位置・照明条件の多様性により、自動情報抽出に適さないことが多くある。本研究では、単一画像から文書画像の歪みを補正するための深層学習アプローチであるDewarpNetを提案する。本研究の洞察は、文書紙の3次元幾何構造がテクスチャの歪みを決定するだけでなく、照明効果にも影響を与える点にあり、その点に着目して、エンドツーエンドのパイプライン内で文書紙の3次元形状を明示的にモデル化することを実現した。さらに、これまでで最大かつ最も包括的な文書画像の歪み補正用データセットであるDoc3Dを提供する。このデータセットは、3次元形状、表面法線、UVマップ、アルベド画像など、複数のグランドトゥースアノテーションを備えている。Doc3Dを用いた学習により、DewarpNetは広範な定性的・定量的評価において最先端の性能を達成することを示した。また、当ネットワークは撮影された文書画像に対するOCR性能を著しく向上させ、平均して文字誤認識率を42%低減した。本研究のコードおよびデータセットは公開されている。