2ヶ月前

分子と自然言語の翻訳

Carl Edwards; Tuan Lai; Kevin Ros; Garrett Honke; Kyunghyun Cho; Heng Ji
分子と自然言語の翻訳
要約

私たちは、大量のラベルのない自然言語テキストと分子文字列を用いてモデルの事前学習を行う自己監督学習フレームワークである MolT5 を提案します。MolT5 は、従来の視覚-言語タスクにおける新しい、有用で、挑戦的なアナログを可能にします。例えば、分子キャプショニングやテキストベースのde novo分子生成(全体として:分子と言語間の翻訳)などです。これらのタスクについて初めて探索しています。MolT5 は単一モーダルデータでのモデルの事前学習を行うため、化学分野におけるデータ不足という課題を克服するのに役立ちます。さらに、分子キャプショニングとテキストベースの分子生成の評価のために、いくつかの指標を検討しており、その中には新しいクロスモーダル埋め込みに基づく指標も含まれています。私たちの結果は、MolT5 ベースのモデルが多くの場合高品質な出力を生成できることを示しています。これは分子とキャプション双方において言えます。

分子と自然言語の翻訳 | 最新論文 | HyperAI超神経