17日前
DIVA-DAF:歴史文書画像解析のためのディープラーニングフレームワーク
Lars Vögtlin, Anna Scius-Bertrand, Paul Maergner, Andreas Fischer, Rolf Ingold

要約
深層学習手法は、歴史的文書画像解析のタスク解決において優れた性能を示している。しかし、現在のライブラリやフレームワークにもかかわらず、実験または複数の実験をプログラミングし実行するプロセスは依然として時間のかかるものである。このような課題に対応して、本研究ではPyTorch Lightningを基盤とし、歴史的文書解析に特化したオープンソースの深層学習フレームワーク「DIVA-DAF」を提案する。セグメンテーションや分類といった事前実装済みのタスクは、容易に利用またはカスタマイズが可能である。また、データの読み込み(大規模データセットを含む)、さまざまな形式の正解ラベル(ground truth)を扱うための強力なモジュールを備えているため、独自のタスクを迅速に構築できる。実際の応用事例から、文書解析タスクのプログラミング時間の短縮が確認されたほか、事前学習やアーキテクチャの変更といった異なるシナリオにおいても効果が顕著であった。さらに、本フレームワークのデータモジュールの恩恵により、モデル学習に要する時間も大幅に削減可能であることが示された。