2ヶ月前
BioT5+: IUPAC統合と多タスクチューニングによる一般化された生物学的理解へ
Qizhi Pei; Lijun Wu; Kaiyuan Gao; Xiaozhuan Liang; Yin Fang; Jinhua Zhu; Shufang Xie; Tao Qin; Rui Yan

要約
最近の計算生物学における研究動向は、テキストと生物実体モデリングの統合にますます焦点を当てています。特に分子やタンパク質に関する文脈において、この傾向が顕著です。しかし、BioT5などの以前の取り組みは、多様なタスクへの汎化性に課題を抱えており、分子構造の微細な理解、特にそのテキスト表現(例:IUPAC)において不足していました。本論文では、生物研究と医薬品発見を強化するために設計されたBioT5の拡張版であるBioT5+を紹介します。BioT5+には以下の新機能が含まれています:分子理解のためのIUPAC名の統合、bioRxivやPubChemなどのソースから得られる広範な生物テキストと分子データの包含、タスク間での汎用性向上のために行われたマルチタスク指示調整、および数値データ処理の改善のために開発された数値トークン化技術。これらの改良により、BioT5+は分子表現とそのテキスト記述との間のギャップを埋めることができ、生物実体に対するより包括的な理解を提供し、生物テキストと生物シーケンスの根拠に基づく推論能力を大幅に向上させています。\emph{3種類の問題(分類、回帰、生成)、15種類のタスク、21つのベンチマークデータセット} を含む多数の実験で事前学習および微調整が行われた結果、本モデルは多くの場合で優れた性能と最先端の結果を示しています。BioT5+は生物学的データ内の複雑な関係性を捉える能力に優れており、バイオインフォマティクスや計算生物学に大きく貢献しています。当該コードは \url{https://github.com/QizhiPei/BioT5} で公開されています。