مجموعة بيانات الإجابة على أسئلة نص بروتين ProtT3
التاريخ
الحجم
رابط النشر
العلامات
تم إنشاء مجموعة بيانات ProtT3 بشكل مشترك من قبل فرق بحثية من الجامعة الوطنية في سنغافورة، وجامعة العلوم والتكنولوجيا في الصين، وجامعة هوكايدو في عام 2024.ProtT3: توليد البروتين إلى نص لفهم البروتين القائم على النص"وقد تم اختيارها لـ ACL 2024. هذه المجموعة من البيانات هي مجموعة بيانات ما قبل التدريب للبحث الورقي.
تتكون مجموعة بيانات ProtT3 من ثلاث مجموعات بيانات: Swiss-Prot وProteinKG25 وPDB-QA.

كما هو موضح في الجدول أعلاه، Swiss-Prot هي قاعدة بيانات تسلسل البروتين مع تعليقات نصية. قام الباحثون بمعالجة مجموعة البيانات واستبعدوا أسماء البروتينات من التعليقات النصية لمنع تسرب المعلومات. يربط وصف النص الناتج بين التعليقات التوضيحية لوظيفة البروتين وموقعه وعائلته.
ProteinKG25 هو رسم بياني للمعرفة مشتق من قاعدة بيانات GeneOntology. قام الباحثون في البداية بتجميع ثلاثيات من نفس البروتين ثم قاموا بملء معلومات البروتين في قالب نصي محدد مسبقًا لتحويل ثلاثياته إلى نص حر.
PDB-QA عبارة عن مجموعة بيانات للإجابة على أسئلة البروتين ذات الدورة الواحدة والمشتقة من RCSB PDB2. يحتوي على 30 قالبًا للأسئلة حول بنية البروتين وخصائصه ومعلومات تكميلية. وكما هو موضح في الجدول أدناه، من أجل التقييم الدقيق، قام الباحثون بتقسيم الأسئلة إلى أربع فئات بناءً على شكل الإجابة (سلسلة أو رقم) والتركيز على المحتوى (الهيكل / السمة أو المعلومات التكميلية).
