ProtT3 蛋白质文本问答数据集

日期

6 个月前

大小

1.4 GB

机构

Hokkaido University
National University of Singapore
University of Science and Technology of China

发布地址

github.com

ProtT3 数据集由新加坡国立大学、中国科学技术大学和北海道大学的研究团队于 2024 年联合构建,相关论文成果为「ProtT3: Protein-to-Text Generation for Text-based Protein Understanding」,并已入选 ACL 2024 。该数据集为论文研究的预训练数据集。

ProtT3 数据集由 Swiss-Prot 、 ProteinKG25 和 PDB-QA 这 3 个数据集构成。

蛋白质文本数据集的统计数据

如上表所示,Swiss-Prot 是一个带有文本注释的蛋白质序列数据库,研究人员对数据集进行处理,并从文本注释中排除了蛋白质名称,以防止信息泄露。生成的文本描述连接蛋白质功能、位置和家族的注释。

ProteinKG25 是 GeneOntology 数据库派生出的知识图谱。研究人员首先将相同蛋白质的 triples 聚合起来,然后将蛋白质信息填充到预定义的文本模板中,将其 triples 转换为自由文本。

PDB-QA 是从 RCSB PDB2 派生的蛋白质单轮问答数据集。包含关于蛋白质结构、性质和补充信息的 30 个问题模板。如下表所示,为了进行细粒度的评估, 研究人员根据答案的格式(字符串或数字)和内容焦点(结构/属性或补充信息)将问题分为 4 类。

PDB-QA 数据集中的 QA 样本对
ProtT3.torrent

做种 1

下载中 0

已完成 52

总下载 81

  • ProtT3/
    • README.md
      2.13 KB
    • README.txt
      4.26 KB
      • data/
        • osfstorage-archive.zip
          1.4 GB