Command Palette

Search for a command to run...

ProtT3 タンパク質テキストの質問と回答のデータ セット

日付

1年前

サイズ

1.4 GB

組織

北海道大学
シンガポール国立大学
中国科学技術大学

公開URL

github.com

論文URL

arxiv.org

ProtT3 データセットは、2024 年にシンガポール国立大学、中国科学技術大学、北海道大学の研究チームによって共同で構築されました。関連する論文結果は「ProtT3: テキストベースのタンパク質理解のためのタンパク質からテキストへの生成』に出場し、ACL2024に選出されている。このデータセットは、論文調査のための事前トレーニングデータセットです。

ProtT3 データセットは、Swiss-Prot、ProteinKG25、PDB-QA の 3 つのデータセットで構成されています。

タンパク質テキストデータセットの統計

上の表に示すように、Swiss-Prot はテキスト アノテーションを備えたタンパク質配列データベースです。研究者は情報漏洩を防ぐためにデータセットを処理し、テキスト アノテーションからタンパク質名を除外しました。生成されたテキストの説明は、タンパク質の機能、位置、ファミリーの注釈を結び付けます。

ProteinKG25 は、GeneOntology データベースから派生したナレッジ グラフです。研究者らはまず、同じタンパク質のトリプルを集約し、次にタンパク質情報を事前定義されたテキスト テンプレートに入力することで、トリプルをフリー テキストに変換しました。

PDB-QA は、RCSB PDB2 から派生したタンパク質のシングルラウンド質問応答データセットです。タンパク質の構造、特性、補足情報に関する 30 の質問テンプレートが含まれています。以下の表に示すように、詳細な評価を行うために、研究者は回答の形式 (文字列または数値) と内容の焦点 (構造/プロパティまたは補足情報) に基づいて質問を 4 つのカテゴリに分類しました。

PDB-QA データセット内の QA サンプル ペア
ProtT3.torrent
シーディング 1ダウンロード中 0ダウンロード完了 191総ダウンロード数 274
  • ProtT3/
    • README.md
      2.13 KB
    • README.txt
      4.26 KB
      • data/
        • osfstorage-archive.zip
          1.4 GB

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています