ProtT3 タンパク質テキストの質問と回答のデータ セット
ProtT3 データセットは、2024 年にシンガポール国立大学、中国科学技術大学、北海道大学の研究チームによって共同で構築されました。関連する論文結果は「ProtT3: テキストベースのタンパク質理解のためのタンパク質からテキストへの生成』に出場し、ACL2024に選出されている。このデータセットは、論文調査のための事前トレーニングデータセットです。
ProtT3 データセットは、Swiss-Prot、ProteinKG25、PDB-QA の 3 つのデータセットで構成されています。

上の表に示すように、Swiss-Prot はテキスト アノテーションを備えたタンパク質配列データベースです。研究者は情報漏洩を防ぐためにデータセットを処理し、テキスト アノテーションからタンパク質名を除外しました。生成されたテキストの説明は、タンパク質の機能、位置、ファミリーの注釈を結び付けます。
ProteinKG25 は、GeneOntology データベースから派生したナレッジ グラフです。研究者らはまず、同じタンパク質のトリプルを集約し、次にタンパク質情報を事前定義されたテキスト テンプレートに入力することで、トリプルをフリー テキストに変換しました。
PDB-QA は、RCSB PDB2 から派生したタンパク質のシングルラウンド質問応答データセットです。タンパク質の構造、特性、補足情報に関する 30 の質問テンプレートが含まれています。以下の表に示すように、詳細な評価を行うために、研究者は回答の形式 (文字列または数値) と内容の焦点 (構造/プロパティまたは補足情報) に基づいて質問を 4 つのカテゴリに分類しました。

ProtT3.torrent
シーディング 1ダウンロード中 0ダウンロード完了 154総ダウンロード数 214