随着大型语言模型 (LLM) 的快速发展,越来越多的人开始担心它们可能带来的一些风险。因此,围绕大模型的「安全与单色」方向受到了极大的关注。
100PoisonMpts 是业内首个大语言模型治理开源中文数据集,由环境社会学专家范叶超、著名社会学家李银河、心理学家李松蔚、人权法专家刘小楠等十多位知名专家学者组成首批「给 AI 的 100 瓶毒药」的标注工程师。标注人各提出 100 个诱导偏见、歧视回答的刁钻问题,并对大模型的回答进行标注,完成与 AI 从「投毒」和「解毒」的攻防。首批领域数据围绕 AI 反歧视、同理心、商榷式表达等目标,已覆盖法理学、心理学、儿童教育、无障碍、冷知识、亲密关系、环境公平等维度,包含专家提出的问题、专家撰写自己或认可的答案。
研究团队探索了基于专家原则的大模型自我对齐研究,具体方法和实验分析请参见技术报告《基于专家原则的大模型自我对齐研究》链接
研究团队基于安全和责任两个评价标准提出了一个评估中国大模型水平价值观的基准。具体内容推荐阅读论文《CVALUES:衡量中国大语言模型从安全到责任的价值》链接
做种 1
下载中 0
已完成 52
总下载 351