Back to Headlines

伦理学家携手人工智能共审人类研究伦理

4 天前

伦理学家正尝试借助人工智能(AI)辅助审查人类研究项目。Philip Nickel曾担任学术机构审查委员会(IRB)成员,他坦言这一工作既重要又枯燥——大量研究提案动辄数百页,内容繁杂,许多申请因准备不充分而拖慢审查进度。他感叹:“同样的错误反复出现,真希望能有办法避免。” 如今,人工智能,尤其是大型语言模型(LLM),被视为潜在解决方案。ChatGPT、Claude等模型可提前筛查研究提案,识别遗漏、错误或潜在法律与伦理风险,从而让人类评审员聚焦于复杂判断。尽管有人担忧AI可能带来偏见、导致评审者过度依赖技术,甚至削弱伦理判断的独立性,但不少学者认为,在IRB积压严重、人力不足的背景下,合理使用AI已成为“伦理上的必要”。 目前尚无IRB正式采用LLM进行审查,但初步实验显示其潜力。去年一项研究发现,GPT-3.5、GPT-4、Google Bard和Claude-Instant等模型能有效识别健康研究设计中的风险收益失衡、参与者保护不足等问题。最近一项预印本显示,GPT-4o与Gemini 1.5 Pro在50份模拟动物研究提案中,100%捕捉到人类评审员发现的问题。 为提升AI的适用性,研究者正探索用IRB历史数据“微调”模型,使其更符合特定机构的政策、法律标准与文化背景。生物伦理学家Sebastian Porsdam Mann与Brian Earp等人提出,应使用具备推理能力的模型(如OpenAI的o系列、Anthropic的Sonnet),能逐步展示判断逻辑,避免“黑箱”问题。还可将模型输出与机构手册、政策文件等外部资料绑定,减少“幻觉”风险。 研究者强调,AI并非取代人类,而是帮助处理常规事务,释放人力应对深层伦理议题。NUS的Seah Jiehao表示,这能让评审更专注实质性问题。 然而,也有警告:商业IRB可能为追求效率和利润,滥用AI压缩审查流程。美国政府问责局2023年报告指出,这类机构缺乏联邦监管,部分存在重速度轻质量的问题。不过,WCG IRB的医生Donna Snyder认为,AI可用于辅助专家快速查找先例,提升决策质量。 对资源匮乏的全球南方IRB而言,AI或成救命稻草。南非斯泰伦博斯大学的Keymanthri Moodley坦言,面对海量提案,人力严重不足令人窒息。但她也提醒:若AI训练数据仅基于西方标准,可能无法反映非洲等地区的伦理文化,存在适用性风险。 尽管存在争议,Anthropologist Steph Grohmann认为AI辅助已是大势所趋。她开发的原型工具EthicAlly已能在25个虚构提案中准确识别24个伦理问题,涵盖信息缺失到科学种族主义等严重漏洞。她与团队正计划测试不同商业模型,并推动开发开源或本地部署版本,确保数据安全与透明。 但医学伦理学家Holly Fernandez Lynch仍强调:IRB的核心价值在于人类集体审慎讨论,而非算法判断。“一群人在共同思考如何保护研究参与者,这种价值值得我们珍视并守护。”

Related Links