ProtT3 단백질 텍스트 질의응답 데이터세트

날짜

일 년 전

크기

1.4 GB

기관

홋카이도 대학교
싱가포르 국립대학교
중국 과학기술대학교

발행 주소

github.com

ProtT3 데이터 세트는 싱가포르 국립대학교, 중국 과학기술대학교, 홋카이도 대학교의 연구팀이 2024년에 공동으로 구축했습니다.ProtT3: 텍스트 기반 단백질 이해를 위한 단백질-텍스트 생성" ACL 2024에 선정되었습니다. 이 데이터 세트는 논문 연구를 위한 사전 학습 데이터 세트입니다.

ProtT3 데이터 세트는 Swiss-Prot, ProteinKG25, PDB-QA의 세 가지 데이터 세트로 구성됩니다.

단백질 텍스트 데이터 세트의 통계

위의 표에서 볼 수 있듯이 Swiss-Prot는 텍스트 주석이 있는 단백질 서열 데이터베이스입니다. 연구자들은 데이터 세트를 처리하고 정보 유출을 막기 위해 텍스트 주석에서 단백질 이름을 제외했습니다. 생성된 텍스트 설명은 단백질 기능, 위치, 계열에 대한 주석을 연결합니다.

ProteinKG25는 GeneOntology 데이터베이스에서 파생된 지식 그래프입니다. 연구진은 먼저 같은 단백질의 세쌍을 모은 다음, 단백질 정보를 미리 정의된 텍스트 템플릿에 입력하여 세쌍을 자유 텍스트로 변환했습니다.

PDB-QA는 RCSB PDB2에서 파생된 단백질 단일 턴 질의응답 데이터 세트입니다. 단백질 구조, 특성 및 추가 정보에 대한 30개의 질문 템플릿이 포함되어 있습니다. 아래 표에서 보듯이, 연구자들은 보다 세분화된 평가를 위해 답변의 형식(문자열 또는 숫자)과 내용의 초점(구조/속성 또는 보충 정보)을 기준으로 질문을 4가지 범주로 나누었습니다.

PDB-QA 데이터 세트의 QA 샘플 쌍
ProtT3.torrent
시딩 1다운로드 중 0완료됨 154총 다운로드 횟수 214
  • ProtT3/
    • README.md
      2.13 KB
    • README.txt
      4.26 KB
      • data/
        • osfstorage-archive.zip
          1.4 GB