11日前
分子と自然言語間の翻訳を向上させるための自動アノテーション拡張
Zhiqiang Zhong, Simon Sataa-Yu Larsen, Haoyu Guo, Tao Tang, Kuangyu Zhou, Davide Mottin

要約
近年、生物学研究におけるAIの進展は、分子データと自然言語を統合することでドラッグディスカバリを加速する方向に注力している。しかし、高品質なアノテーションの不足が、この分野の進展を制限している。本論文では、大規模言語モデルを活用して既存データセットを拡張する、言語ベースの自動アノテーション拡張フレームワーク「LA$^3$」を提案する。LA$^3$は、AIの学習品質を向上させるために、既存のデータセットに新たなアノテーションを付加する。本研究では、既存のデータセットから分子のアノテーションを体系的に再構成することで、拡張されたデータセット「LaChEBI-20」を構築した。この再構成されたアノテーションは、分子の重要な情報は保持しつつ、より多様な文構造と語彙を提供する。LaChEBI-20を用いて、ベンチマークアーキテクチャに基づくLaMolT5を学習させ、分子表現と拡張されたアノテーションの間のマッピングを学習させた。テキストベースのde novo分子生成および分子キャプションタスクにおける実験結果から、LaMolT5が最先端モデルを上回ることを示した。特に、LA$^3$を導入することで、ベンチマークアーキテクチャに対して最大301%の性能向上が達成された。さらに、画像、テキスト、グラフの各タスクにおいてもLA$^3$の有効性を検証し、その汎用性と実用性を裏付けた。