17日前
RectiNet-v2:ドキュメント画像の歪み補正のためのスタック型ネットワークアーキテクチャ
Hmrishav Bandyopadhyay, Tanmoy Dasgupta, Nibaran Das, Mita Nasipuri

要約
モバイルおよびハンドヘルドカメラの普及に伴い、ドキュメント画像はほぼあらゆる分野に広く応用されるようになっている。こうした画像から透視歪みや折り目による歪みを除去するためのデワーピング処理は、ドキュメント認識アルゴリズムが画像を正しく理解できるようにするために不可欠である。本研究では、入力として歪んだドキュメント画像を受け取り、歪みのないドキュメント画像を出力するエンドツーエンドのCNNアーキテクチャを提案する。自然な歪みドキュメント画像データが十分に不足しているため、本モデルは合成的に生成された歪み画像を用いて学習を行う。本手法の特徴は、グリッド座標の混合を防ぐために共有重みを持つ二重化デコーダー(bifurcated decoder)を用いる点、U-Netのスキップ接続に残差ネットワーク(residual network)を導入して、モデル内の異なる受容野からの情報伝達を可能にする点、およびゲート付きネットワーク(gated network)を用いてモデルがドキュメント画像の構造や線レベルの詳細に集中できるようにする点にある。本手法は、この分野におけるベンチマークとして知られるDocUNetデータセット上で評価され、最先端の手法と同等の性能を達成した。