历时两年,秘鲁四人调查团队发布反腐 AI

在博尔赫斯的一篇小说《博闻强识的富内斯》中,描写了一个具有超凡观察力和记忆力的天才——富内斯(Funes)。

年轻的 Funes 在一次坠马意外后,获得了惊人的记忆力和观察力。他能够回忆出过往经历的每一个细节,书里的每一个文字。甚至能够观察到生活、自然界中如新芽生发、花瓣凋落的细微变化。

小说里的 Funes 富内斯就像开了天眼,有着观察、记忆、理解、阐释一切的能力。

  贪腐 AI Funes:揪出合同中的违规线索

这篇小说给秘鲁的数字调查机构 ojo-publico 带来了灵感。他们认为博尔赫斯笔下 Funes 就像现在的算法,能够发掘出表象下很多潜藏、未知的秘密。

该机构中的调查记者、机器学习专家和法律顾问通力合作,基于秘鲁政府公开的 245000 份政府采购、工程建设、选举捐赠的合同和账务明细。

历时两年,训练出了一个用于合同审查的 AI 模型,能够检查出合同中的腐败、违规的线索。调查团队认为算法有着观察、审核所有细节的超能力,便将模型命名为 Funes。

截止目前,基于 Funes 细致的核查工作,共核查出了 110000 份问题合同(共 245000 份合同),金额为 570 亿新索尔(秘鲁货币单位,约为 1009 亿人民币)。

基于这些问题合同的线索,记者团队进行了更深入的调查和求证,揭露了多项秘鲁政府腐败、违规的政府采购行为,涉及到秘鲁多家大型企业,涉案金额近千亿欧元。

  采购中的猫腻,AI 目光如炬

其中牵扯出了几起秘鲁近年的腐败行为的大案要案,包括:

  • 秘鲁国有的石油精炼加工公司 Petroperú,在四年时间里通过参与多个州、省的公开招标,获得了近 24 亿人民币的政府采购项目。其中 90% 的项目都是作为唯一参与投标企业获得的,这严重违反了秘鲁政府采购的法规,也影响了市场正常竞争。

Funes 还从 24 万份政府采购合同与数据中发现,有数千万元的财政支出支付给了成立不到 20 天的公司。

  • 比如,餐饮公司 Melcesca 注册于 2015 年 10 月 23 日,成立两周不到的时间,就获得了秘鲁圣安东尼奥阿巴德·库斯科国立大学(Unsaac)举行了一项公开招标,成为了该校食堂的供应商。(该项采购招标共有 16 个投标方)
部分由 Funes 揭露的案件已经进入侦查、公诉阶段
在秘鲁国内引发了巨大的舆论关注

与此类似的违规操作和风险合同,Funes 发现了很多。Funes 敏锐的洞察力和极高的判断力,来源于成熟的商业调查和成熟的算法支持。

在公共政策与社会学的研究领域,有不少学者致力于政府信息公开和贪腐问题的研究。Funes 的算法也是基于一位资深学者 Mihaly Fazekas 的研究成果之上的。

Mihaly Fazekas 是剑桥大学人类、社会和政治科学的博士研究员,在他的研究中,有一套针对政府采购合同、账目流水的贪腐检测算法。他发现,有几类明显特征的合同,是违规、贪腐案件的突破口。只要抓住这些特征,就可以从海量文书中,找到这些合同和与其相关联的资料。

这些特征包括:

  1. 非公开的招投标;
  2. 招投标信息的公示时间明显较短;
  3. 竞标者中,规模、实力明显悬殊;
  4. 采购合同包含大量修改;
  5. 中标决策的时间过短或过长的。

他依据这些判断设计了一个评估模型,将 CRI(Corruption Risk Index)定义为腐败风险指数

其中 CRIi 代表合同 i 的腐败风险指数,

CIji 代表合同 i 招标中观察到的第 j 个基本腐败指标,

wj 代表第 j 个基本腐败指标的权重。

CRI=0 表示最低腐败风险,

CRI=1 表示观察到的最大腐败风险。

其中,如果第 i 个合同只有一个投标人,则单个投标人等于 1,如果有更多的投标人,则等于 0;

Zi  代表合同为单标合同的对数;β0 为回归的常数。

Rij 为第 i 个合同的 j 个腐败 “ 红旗 “ 矩阵,如公示期的长度。

Cim 代表第 i 个合同的 m 个控制变量的矩阵,如公示期长短;

Cim 代表第 i 个合同的 m 个控制变量的矩阵。

市场上的竞争者;εi 为误差项;

β1j、β4m 代表系数的向量,解释变量和控制变量。

基于 Mihaly Fazekas 的算法,算法团队还针对西班牙语合同的文字识别的改进、以及针对秘鲁国情的风险指标调整,Funes 有了非常好的效果。

数据公开,实现透明,推动创新

清华大学公共管理学院的三位学者,曾经在研究《政府数据开放与腐败防治: 英国的实践与启示》指出:开放数据可以促进社会监督,公众通过开放的数据可以发现腐败行为。

开放政府数据,有利于提高政府透明度,也有利于促进经济发展和社会创新。这方面,目前欧盟和英国正走在最前列。

2015 年,欧盟委员会展开了运用开放数据惩治腐败的行动 ( Towards a European Strategy to Reduce Corruption by Enhancing the Use of Open Data,简称 TACOD) ,英国成为该项目的试点国家之一。

TACOD 研究团队发现,揭露腐败行为最多的是执法部门 (34%) ,然后依次是调查记者 (25%) 、信息自由请求 (14%),举报 (13%),开放数据 (7%)。

虽然目前通过开放数据揭露的腐败行为只占到 7%,但如果某些关键数据及早公开的话,大量腐败行为可以更早地被发现和侦测,开放政府数据有潜力成为反腐败的重要工具。

即使政府信息公开,也提高了复杂合同和海量交易数据的处理门槛。在 2009 年,英国议员滥用公款报销个人账单丑闻接连被媒体曝光。英国三大政党、300 余名议员卷入其中。面对议员们浩如烟海的报销凭证、申请文书,《每日电讯报》、《卫报》等媒体在互联网上公开了大量数据,并邀请英国民众「众包式」地参与调查。

部分由 Funes 揭露的案件已经进入侦查、公诉阶段
在秘鲁国内引发了巨大的舆论关注

民众在数据中发现疑点,可以将对应数据在网站上进行标注,调查团队将继续跟进。但众包之下,也问题重重,没有受过调查训练的民众并不能高效、准确地完成这些任务。

Funes 的出现,就实现了政府公开数据揭露腐败行为的突破和最佳实践,以数据科学家、调查记者、法律专家组成的四人团队,有力的展现了人+ AI 的强大调查能力。

 Funes 依然在行动

截止目前,Funes 仍作为一项开放、准确的调查工具,活跃在秘鲁新闻调查的前线阵地。

不仅如此,从去年开始,打造 Funes 的数字调查机构  ojo-publico 已经在用 Funes 核查新冠疫情期间的政府采购项目。