HyperAIHyperAI

Command Palette

Search for a command to run...

ProtT3 タンパク質テキストの質問と回答のデータ セット

Date

1年前

Size

1.4 GB

Organization

北海道大学
シンガポール国立大学
中国科学技術大学

Publish URL

github.com

Paper URL

arxiv.org

ProtT3 データセットは、2024 年にシンガポール国立大学、中国科学技術大学、北海道大学の研究チームによって共同で構築されました。関連する論文結果は「ProtT3: テキストベースのタンパク質理解のためのタンパク質からテキストへの生成』に出場し、ACL2024に選出されている。このデータセットは、論文調査のための事前トレーニングデータセットです。

ProtT3 データセットは、Swiss-Prot、ProteinKG25、PDB-QA の 3 つのデータセットで構成されています。

タンパク質テキストデータセットの統計

上の表に示すように、Swiss-Prot はテキスト アノテーションを備えたタンパク質配列データベースです。研究者は情報漏洩を防ぐためにデータセットを処理し、テキスト アノテーションからタンパク質名を除外しました。生成されたテキストの説明は、タンパク質の機能、位置、ファミリーの注釈を結び付けます。

ProteinKG25 は、GeneOntology データベースから派生したナレッジ グラフです。研究者らはまず、同じタンパク質のトリプルを集約し、次にタンパク質情報を事前定義されたテキスト テンプレートに入力することで、トリプルをフリー テキストに変換しました。

PDB-QA は、RCSB PDB2 から派生したタンパク質のシングルラウンド質問応答データセットです。タンパク質の構造、特性、補足情報に関する 30 の質問テンプレートが含まれています。以下の表に示すように、詳細な評価を行うために、研究者は回答の形式 (文字列または数値) と内容の焦点 (構造/プロパティまたは補足情報) に基づいて質問を 4 つのカテゴリに分類しました。

PDB-QA データセット内の QA サンプル ペア
ProtT3.torrent
Seeding 1Downloading 0Completed 197Total Downloads 319
  • ProtT3/
    • README.md
      2.13 KB
    • README.txt
      4.26 KB
      • data/
        • osfstorage-archive.zip
          1.4 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています