HyperAIHyperAI

Command Palette

Search for a command to run...

ProtT3 タンパク質テキストの質問と回答のデータ セット

日付

2年前

サイズ

1.4 GB

データセット構成

National University of Singapore
University of Science and Technology of China
Hokkaido University

公開URL

github.com

Paper URL

arxiv.org

ProtT3 データセットは、2024 年にシンガポール国立大学、中国科学技術大学、北海道大学の研究チームによって共同で構築されました。関連する論文結果は「ProtT3: テキストベースのタンパク質理解のためのタンパク質からテキストへの生成』に出場し、ACL2024に選出されている。このデータセットは、論文調査のための事前トレーニングデータセットです。 ProtT3 データセットは、Swiss-Prot、ProteinKG25、PDB-QA の 3 つのデータセットで構成されています。

タンパク質テキストデータセットの統計
タンパク質テキストデータセットの統計
上の表に示すように、Swiss-Prot はテキスト アノテーションを備えたタンパク質配列データベースです。研究者は情報漏洩を防ぐためにデータセットを処理し、テキスト アノテーションからタンパク質名を除外しました。生成されたテキストの説明は、タンパク質の機能、位置、ファミリーの注釈を結び付けます。 ProteinKG25 は、GeneOntology データベースから派生したナレッジ グラフです。研究者らはまず、同じタンパク質のトリプルを集約し、次にタンパク質情報を事前定義されたテキスト テンプレートに入力することで、トリプルをフリー テキストに変換しました。 PDB-QA は、RCSB PDB2 から派生したタンパク質のシングルラウンド質問応答データセットです。タンパク質の構造、特性、補足情報に関する 30 の質問テンプレートが含まれています。以下の表に示すように、詳細な評価を行うために、研究者は回答の形式 (文字列または数値) と内容の焦点 (構造/プロパティまたは補足情報) に基づいて質問を 4 つのカテゴリに分類しました。
PDB-QA データセット内の QA サンプル ペア
PDB-QA データセット内の QA サンプル ペア

ProtT3.torrent
シーディング 1ダウンロード中 0完了 201総ダウンロード数 347
  • ProtT3/
    • README.md
      2.13 KB
    • README.txt
      4.26 KB
      • data/
        • osfstorage-archive.zip
          1.4 GB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ProtT3 タンパク質テキストの質問と回答のデータ セット | データセット | HyperAI超神経