HyperAIHyperAI

Command Palette

Search for a command to run...

分子と自然言語間の翻訳を向上させるための自動アノテーション拡張

Zhiqiang Zhong Simon Sataa-Yu Larsen Haoyu Guo Tao Tang Kuangyu Zhou Davide Mottin

概要

近年、生物学研究におけるAIの進展は、分子データと自然言語を統合することでドラッグディスカバリを加速する方向に注力している。しかし、高品質なアノテーションの不足が、この分野の進展を制限している。本論文では、大規模言語モデルを活用して既存データセットを拡張する、言語ベースの自動アノテーション拡張フレームワーク「LA3^33」を提案する。LA3^33は、AIの学習品質を向上させるために、既存のデータセットに新たなアノテーションを付加する。本研究では、既存のデータセットから分子のアノテーションを体系的に再構成することで、拡張されたデータセット「LaChEBI-20」を構築した。この再構成されたアノテーションは、分子の重要な情報は保持しつつ、より多様な文構造と語彙を提供する。LaChEBI-20を用いて、ベンチマークアーキテクチャに基づくLaMolT5を学習させ、分子表現と拡張されたアノテーションの間のマッピングを学習させた。テキストベースのde novo分子生成および分子キャプションタスクにおける実験結果から、LaMolT5が最先端モデルを上回ることを示した。特に、LA3^33を導入することで、ベンチマークアーキテクチャに対して最大301%の性能向上が達成された。さらに、画像、テキスト、グラフの各タスクにおいてもLA3^33の有効性を検証し、その汎用性と実用性を裏付けた。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています