Command Palette
Search for a command to run...
TACK 靶向嵌合体知识库数据集
TACK(TArgeting Chimeras Knowledge)是由 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集,该数据集专为机器学习驱动的 PROTAC 降解活性预测任务构建,相关论文成果为 TACK: A statistical evaluation of degradation activity on a novel TArgeting Chimeras Knowledge dataset,旨在解决现有 PROTAC 机器学习基准中数据稀缺、缺乏严格评估及覆盖范围有限的问题,广泛应用于 PROTAC 降解活性预测、靶向蛋白降解(TPD)研究、人工智能辅助药物发现(AIDD)、计算机辅助药物设计(CADD)、药物虚拟筛选、多任务学习、分子性质预测、图神经网络研究以及机器学习基准测试等领域。 该数据集共包含 6,561 条记录,其中包含 4184 条 DC50 记录、 2,377 条 Dmax 记录和 1,563 条 multitask 记录,共涵盖 3,514 个唯一 PROTAC 分子、 164 个靶标蛋白(Protein of Interest,POI)、 9 种 E3 泛素连接酶(E3 Ligases)以及 155 种细胞系(Cell Lines),具有丰富的化学结构特征和生物学实验条件多样性。根据 DC₅₀ ≤ 100 nM 且 Dmax ≥ 80% 的活性判定标准,约 55% 的样本被标记为活性样本。
数据集构成
包含 3 个数据子集,用于支持不同类型的 PROTAC 降解活性预测任务:
- DC50:仅包含蛋白降解效力指标(DC₅₀)数据,共 4,184 条记录
- Dmax:仅包含最大降解效力指标(Dmax)数据,共 2,377 条记录
- multitask:包含同一 PROTAC 分子在相同实验条件下配对的 DC₅₀ 与 Dmax 数据,共 1,563 条记录,适用于多任务学习和二元分类研究
Citation
@misc{ribes2026tackstatisticalevaluationdegradation,
title={TACK: A statistical evaluation of degradation activity on a novel TArgeting Chimeras Knowledge dataset},
author={Stefano Ribes and Nils Dunlop and Rocío Mercado},
year={2026},
eprint={2605.19579},
archivePrefix={arXiv},
primaryClass={q-bio.QM},
url={https://arxiv.org/abs/2605.19579},
}