このデータセットを使用

Discordで議論

日付

2年前

サイズ

1.4 GB

データセット構成

公開URL

論文URL

タグ

サイエンスのためのAI

タンパク質

ProtT3 データセットは、2024 年にシンガポール国立大学、中国科学技術大学、北海道大学の研究チームによって共同で構築されました。関連する論文結果は「ProtT3: テキストベースのタンパク質理解のためのタンパク質からテキストへの生成』に出場し、ACL2024に選出されている。このデータセットは、論文調査のための事前トレーニングデータセットです。 ProtT3 データセットは、Swiss-Prot、ProteinKG25、PDB-QA の 3 つのデータセットで構成されています。

タンパク質テキストデータセットの統計

上の表に示すように、Swiss-Prot はテキストアノテーションを備えたタンパク質配列データベースです。研究者は情報漏洩を防ぐためにデータセットを処理し、テキストアノテーションからタンパク質名を除外しました。生成されたテキストの説明は、タンパク質の機能、位置、ファミリーの注釈を結び付けます。 ProteinKG25 は、GeneOntology データベースから派生したナレッジグラフです。研究者らはまず、同じタンパク質のトリプルを集約し、次にタンパク質情報を事前定義されたテキストテンプレートに入力することで、トリプルをフリーテキストに変換しました。 PDB-QA は、RCSB PDB2 から派生したタンパク質のシングルラウンド質問応答データセットです。タンパク質の構造、特性、補足情報に関する 30 の質問テンプレートが含まれています。以下の表に示すように、詳細な評価を行うために、研究者は回答の形式 (文字列または数値) と内容の焦点 (構造/プロパティまたは補足情報) に基づいて質問を 4 つのカテゴリに分類しました。

PDB-QA データセット内の QA サンプルペア

引用

「`bib @inproceedings{liu2024prott, タイトル={ProtT3: テキストベースのタンパク質理解のためのタンパク質からテキストへの生成}、 author={リウ、ジーユアンとチャン、アンとフェイ、ハオとチャン、エンジとワン、シャンとカワグチ、ケンジとチュア、タッセン} 書籍タイトル={{ACL}}、発行元 = {計算言語学会}、年={2024}、 url={https://openreview.net/forum?id=ZmIjOPil2b} }

ProtT3.torrent

シーディング 1ダウンロード中 0完了 246総ダウンロード数 386

ProtT3/
- README.md
  2.13 KB
- README.txt
  4.26 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

このデータセットを使用

Discordで議論

日付

2年前

サイズ

1.4 GB

データセット構成

公開URL

論文URL

arxiv.org

タグ

サイエンスのためのAI

タンパク質

ProtT3 データセットは、2024 年にシンガポール国立大学、中国科学技術大学、北海道大学の研究チームによって共同で構築されました。関連する論文結果は「ProtT3: テキストベースのタンパク質理解のためのタンパク質からテキストへの生成』に出場し、ACL2024に選出されている。このデータセットは、論文調査のための事前トレーニングデータセットです。 ProtT3 データセットは、Swiss-Prot、ProteinKG25、PDB-QA の 3 つのデータセットで構成されています。

タンパク質テキストデータセットの統計

上の表に示すように、Swiss-Prot はテキストアノテーションを備えたタンパク質配列データベースです。研究者は情報漏洩を防ぐためにデータセットを処理し、テキストアノテーションからタンパク質名を除外しました。生成されたテキストの説明は、タンパク質の機能、位置、ファミリーの注釈を結び付けます。 ProteinKG25 は、GeneOntology データベースから派生したナレッジグラフです。研究者らはまず、同じタンパク質のトリプルを集約し、次にタンパク質情報を事前定義されたテキストテンプレートに入力することで、トリプルをフリーテキストに変換しました。 PDB-QA は、RCSB PDB2 から派生したタンパク質のシングルラウンド質問応答データセットです。タンパク質の構造、特性、補足情報に関する 30 の質問テンプレートが含まれています。以下の表に示すように、詳細な評価を行うために、研究者は回答の形式 (文字列または数値) と内容の焦点 (構造/プロパティまたは補足情報) に基づいて質問を 4 つのカテゴリに分類しました。

PDB-QA データセット内の QA サンプルペア

引用

「`bib @inproceedings{liu2024prott, タイトル={ProtT3: テキストベースのタンパク質理解のためのタンパク質からテキストへの生成}、 author={リウ、ジーユアンとチャン、アンとフェイ、ハオとチャン、エンジとワン、シャンとカワグチ、ケンジとチュア、タッセン} 書籍タイトル={{ACL}}、発行元 = {計算言語学会}、年={2024}、 url={https://openreview.net/forum?id=ZmIjOPil2b} }

ProtT3.torrent

シーディング 1ダウンロード中 0完了 246総ダウンロード数 386

ProtT3/
- README.md
  2.13 KB
- README.txt
  4.26 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています