8ヶ月前

概要

視覚情報抽出（VIE）は、非構造化の文書画像をJSONなどの構造化フォーマットに変換します。これは、診断レポートの分析やオンライン診療など、医療分野でのアプリケーションにとって重要です。従来の手法ではOCRと言語モデルが用いられていましたが、エンドツーエンドのマルチモーダルモデルは直接JSON生成を提供しています。しかし、ドメイン固有のスキーマや高額なアノテーションコストにより、これらのモデルの医療VIEにおける効果性が制限されています。当研究では、これらの課題に対処するために、検証可能な報酬を使用した強化学習（Reinforcement Learning with Verifiable Rewards: RLVR）フレームワークに基づいています。わずか100件のアノテーションサンプルのみを使用することで、データセットの多様性を確保し、精度と再現率のバランスを取りながら幻覚を抑制し、フィールドカバレッジを向上させる報酬メカニズムを実装しました。また、推論能力を向上させるための革新的なサンプリング戦略も導入しています。Qwen2.5-VL-7Bモデルを当研究で開発したRLVR手法で微調整することで、医療VIEタスクにおいて最先端の性能を達成し、F1スコア、精度、再現率が大幅に向上しました。ただし、当モデルは医療データセットに類似したタスクでは優れた性能を示す一方で、異なるタスクでは性能が低下する傾向があり、ドメイン固有の最適化が必要であることが明らかになりました。事例研究ではさらに訓練および推論過程における推論的重要性が示されており、VIEに対する価値を明確にしています。

ソースPDF