2ヶ月前
BioT5: 生物学におけるクロスモーダル統合を化学的知識と自然言語の関連性で豊かにする
Qizhi Pei; Wei Zhang; Jinhua Zhu; Kehan Wu; Kaiyuan Gao; Lijun Wu; Yingce Xia; Rui Yan

要約
最近の生物学研究における進歩は、分子、タンパク質、および自然言語の統合を活用して、医薬品の発見を向上させる方向で進められています。しかし、現行のモデルにはいくつかの制限が存在しており、無効な分子SMILES(Simplified Molecular Input Line Entry System)の生成、文脈情報の未十分な利用、構造化された知識と非構造化された知識の同等扱いなどが挙げられます。これらの課題に対処するため、私たちは$\mathbf{BioT5}$という包括的な事前学習フレームワークを提案します。$\mathbf{BioT5}$は、化学的知識と自然言語関連性を豊かにすることで、生物学におけるクロスモーダル統合を強化します。$\mathbf{BioT5}$はSELFIES(Self-referencing Embedded Strings)を使用して分子表現を$100\%$堅牢にし、非構造化された生物学文献中のバイオエンティティ周辺の文脈から知識を抽出します。さらに、$\mathbf{BioT5}$は構造化された知識と非構造化された知識を区別することで、情報のより効果的な利用につながります。ファインチューニング後、BioT5は幅広いタスクにおいて優れた性能を示し、バイオエンティティの潜在的な関係や特性を捉える強い能力を持つことが証明されました。私たちのコードは$\href{https://github.com/QizhiPei/BioT5}{GitHub}$で公開されています。