破解“打地鼠困境”:更智能的 AI 视觉模型去偏见方案
在医疗影像诊断等高风险场景中,人工智能模型的偏见问题正成为严峻的安全隐患。若视觉模型因训练数据或架构缺陷偏向特定肤色,可能导致误诊。传统“投影去偏”技术虽能移除偏见信息,却会破坏模型其他正常关系,引发“打地鼠”困境,即消除一种偏见反而可能放大另一种偏见。 麻省理工学院、伍斯特理工学院与谷歌的研究团队提出了一种名为“加权旋转去偏”(WRING)的新方法,旨在解决这一难题。该方法针对多模态视觉语言模型(VLM),如 OpenAI 的 OpenCLIP。WRING 并非在模型训练时重新修改,而是一种可应用于预训练模型的后处理技术。它通过将高维空间中负责产生偏见的坐标旋转到不同角度,使模型无法区分特定概念下的不同群体,从而在不破坏模型其他关联关系的前提下消除偏见。 研究团队由麻省理工学院博士后 Walter Gerych、学生 Cassandra Parent 和 Quinn Perian,谷歌的 Rafiya Javed,以及麻省理工学院的 Justin Solomon 和 Marzyeh Ghassemi 共同完成。实验结果显示,WRING 显著降低了目标概念的偏见,且未在其他领域引发新的偏见。该方法高效且侵入性小,无需重新训练庞大的模型,节省了大量资源。目前,WRING 主要适用于对比语言图像预训练(CLIP)类模型。研究人员表示,下一步计划将该技术扩展至 ChatGPT 等生成式语言模型,并将于 2026 年在国际表征学习会议上发表相关成果。
