ドキュメントレイアウト分析
ドキュメントレイアウト分析(DLA)は、コンピュータビジョンの分野におけるサブタスクで、ドキュメントの物理的な構造を決定することを目的としています。つまり、ドキュメント内のさまざまなコンポーネントを識別します。これらのコンポーネントには、隣接するピクセルが1つの領域を形成した個々の連結コンポーネント領域や、テキスト行のグループが含まれます。テキスト行とは、文字、記号、単語が比較的近くにあり、直線で結ぶことができる集合体を指し、通常は水平または垂直の方向を持ちます。このタスクは、自動化されたドキュメント処理、情報抽出、コンテンツ理解において重要な応用価値があります。