4ヶ月前

概要

高品質なラベル付きデータは、表や数式、多段組み文字など複雑なフォーマットを含むドメインにおいて、正確な文書変換モデルを訓練する上で不可欠である。しかし、手動でのラベル付けは費用と時間の両面で負担が大きく、既存のモデルを用いた自動ラベリングも、こうした困難なシナリオに対応する際には精度に欠けることが多い。その結果、教師モデルの出力を用いた知識蒸留によって生徒モデルを訓練する手法は、実世界の応用において性能を著しく制限する要因となる。本論文では、多様な文書フォーマットおよびレイアウトに対応可能な高品質な文書抽出データセットおよびモデルの構築を目的として、2段階からなる完全自動化かつ知識蒸留を不要とするフレームワークを提案する。第1段階では、大規模かつ多様な合成データを生成する手法を導入し、モデルが一貫したフォーマットで重要な要素を抽出できるように、初期性能が優れた状態で学習できるようにする。第2段階では、合成データで事前に学習されたモデルを実世界の文書にさらに適応させる自己改善アプローチを提示する。具体的には、微調整済みモデルを用いて実文書をラベル付けし、その後、複数のフィルタリング戦略を適用してラベルの品質を検証した上で、検証済みデータセットで再学習を行う。このプロセスを反復的に繰り返すことで、モデルの変換能力と生成データの品質の両方が段階的に向上する。本研究では、公開モデル POINTS-1.5 を学習・微調整し、POINTS-Reader を構築した。このモデルは、同等またはより大きなサイズの既存の公開・非公開モデルを上回る性能を達成した。本モデルの詳細および利用方法は、以下のURLから入手可能である。

ソースPDF コードを表示