17日前

科学出版におけるキュレーションの統合によるAIモデルの訓練

Jorge Abreu-Vicente, Hannah Sonntag, Thomas Eidens, Cassie S. Mitchell, Thomas Lemberger
科学出版におけるキュレーションの統合によるAIモデルの訓練
要約

学術論文からのデータの高スループットな抽出および構造化ラベル付けは、後続の機械学習応用および二次解析を可能にする上で極めて重要である。本研究では、学術出版プロセスに多モーダルデータのキュレーションを組み込み、図パネルおよびそのキャプションを段階的に注釈する仕組みを構築した。自然言語処理(NLP)を、元論文著者による人間によるフィードバック(人間を含むループ)と統合することで、注釈の正確性を向上させた。注釈対象は、小分子、遺伝子産物、細胞小器官、細胞株、細胞型、組織、生物種、疾患の8種類のバイオエンティティに加え、実験設計および手法におけるエンティティの役割を明確にする追加クラスを含んでいる。得られたデータセット「SourceData-NLP」は、分子生物学および細胞生物学分野の3,223編の論文に含まれる18,689枚の図から収集・整理されたもので、62万件を超える注釈付きバイオメディカルエンティティを含んでいる。このデータセットのAIモデル訓練における有用性を、名前付きエンティティ認識(NER)、図キャプションを構成パネルに分割するタスク、および新たな文脈依存的意味的タスク(特定のエンティティが制御された介入対象か、測定対象かを評価する)を用いて評価した。また、本データセットを活用して、図をパネル画像とその対応するキャプションにマルチモーダルに分割するタスクの実現例も示した。