社交媒体的神操作:如何在互联网上删去一段历史?

在信息资讯爆炸的今天,人们关注的焦点和记忆,在算法的应用下,弊端和优点都十分鲜明,那么我们在数据信息中,主动或者被动的记住还是忘记,又是如何被影响的呢?

在科幻作品中,经常出现使用工具或者咒语,使人消除近期的记忆。被消除记忆的人,通常是因为看到了不该看的,或者是忘掉想忘掉的。

在现实中,还没有这样的工具,重要的历史都会被同时代的人,记录成为各种形式。数据作为新的信息载体,也极大的改变了人们的观念体系。

无数新的热点,逐渐覆盖我们的记忆,在新闻热点的影响下,我们不断被动刷新认知。

热点越多,越侵占我们的记忆空间。如果不被反复强调,时间长了,有些热点,就像是没有发生过一样。

一段小故事:极端观念的形成

在 2014 年前后,正是 ISIS 崛起的那几年,也正是社交媒体、移动互联网信息爆炸的时期。

虽然他们倡导的主张极端保守,但 ISIS 却使用丰富的传播手段,比如推特、脸书和油管这些工具,来宣传极端思想,以此吸引全世界各地的支持者加入他们。

其中脸书和推特都是 ISIS 的重灾区

他们甚至还知道如何打造自己的人设,除了发布残暴的刑罚视频,他们还会充分讨好年轻网友。

甚至打造了一个 「圣战猫咪 Islamic State Cats」的账号,专门发布他们生活中的小猫照片和视频,直到这些账号,被推特和脸书一一关闭。

封号前,这曾是 ISIS 在推特上最受欢迎的账号之一

在 2018 年第一季度,Facebook 一共删除了 2888.37 万条帖子,同时关闭和删除了大约 5.83 亿个虚假账户,这一块主要是指恐怖主义,和仇恨言论的相关信息和账户。

巨头的权力:悄悄抹去不和谐的痕迹

Facebook 表示,在屏蔽和删除帖子的过程中,已经越来越少的依赖人力,目前 99.5 % 与恐怖主义相关的帖子,是由 Facebook 通过人工智能的技术手段找到的。

其中一种技术就是图像识别与匹配,一旦用户发布的图片疑似涉嫌,Facebook 会通过算法实现自动匹配,找出图片是否和  ISIS 的宣传视频有关,或者能否和已删除的极端图片或视频相关联,进而采取封禁措施。

Facebook 的技术团队曾在博客《Rosetta: Understanding text in images and videos with machine learning》中,描述了图像识别工具 Rosetta 是如何运行的。

图像识别工具 Rosetta 为识别阿拉伯语做了特殊处理

Rosetta 使用 Faster R-CNN 检测字符,再通过 CTC(Connectionist Temporal Classification)损失的 ResNet-18 完全卷积模型,来进行文字识别,并用 LSTM 增强准确性。

最终生成的文本识别模型结构

此外,Facebook 还进行着文本分析研究,对网站上恐怖分子可能使用的语言进行解析,一旦发布的内容涉及恐怖主义,立刻就会做出相应的对策。

除了日益强大了的 AI 审核工具,Facebook 也有强大的人工审核团队,他们的安全团队分为社区运营和社区诚信两支队伍。社区诚信团队主要负责建立举报-反应机制的自动化工具。

目前,这支人工审查团队已经达到两万多人,以 Facebook 目前二十亿活跃用户来算,每名安全人员需覆盖十万用户。

直播网红:即使平台不干涉,最多火半年

资料显示,目前国内映客、花椒、一直播、美拍、陌陌、火山六大娱乐直播平台的有效主播人数约为 144 万,如果加上游戏直播平台的斗鱼、虎牙、企鹅电竞和熊猫 TV,国内知名直播平台的有效主播总数大致应在 240 万~250 万人。

在这些想要快速成名的年轻人中,很多人并不具备成为偶像的条件。于是,他们就另辟蹊径,通过整容、恶搞、极端表演来吸引用户的眼球。

有主播表演生吃动物、喝辣椒油,甚至有主播进行铁轨上拍照、高速上停车、攀爬高楼、高台跳水,各种高度危险的行为,一度发生了多次主播因拍摄视频造成严重伤亡的事件。

经历了发展之初那段上无监管、下无门槛的混乱时期后,国家监管部门迅速介入行业规则确立,各类法律法规陆续出台,专项整治行动此起彼伏,各个平台也开始打击各种内容违规的主播。

快手的 CEO 宿华在对媒体的访问中提到,快手的推荐算法并不是简单地打标签,而是交互影响,比如 「有这么几个人都共同喜欢同样一个人,我们就会认为这些人具备了相同的某个特征。」正是给予这些特征,算法能够预估内容与用户之间匹配的程度。

在推荐系统中,最为常用的就是协同过滤算法 Collaborative filtering,简单来说,这个算法主要的功能是预测和推荐。

基于协同过滤算法的推荐系统原理示意

算法通过对用户历史行为数据的挖掘发现用户的偏好,构建用户画像或者内容画像,基于不同的偏好对用户进行群组划分来向用户推荐可能感兴趣的内容。

第一类是 Neighborhood-based,第二类是 Model-based approach,在这种方法中,模型使用不同的数据挖掘,机器学习算法来预测用户对未评估内容的评分。

协同过滤算法(用户推荐系统)分类

大多数商业应用也都是混合型的,也通过多种推荐算法重叠,弥补不同算法的缺陷,使推荐结果更加精准。

现在,我们很难再看到极端低俗的视频内容,也更不会看到他们因为观众的热捧被顶上首页。但这并不证明这些视频没有被拍摄,或者说这些视频内容没有在真实世界发生。

集体失忆:你看到的都是 Ta 想让你看到的

我们所接触的各种资讯,都是通过层层筛过的算法之后,所构建起来的一种景象,但它究竟会不会是一个 「楚门的世界」,恐怕也很难说清楚。

何况在这个世界上,来自于不同的政府、组织、民族、文化的力量都在干预着信息的呈现,这个世界的真相,从来都不会是随便一刷手机,不动脑子就能明白的。

不断被干预的记忆背后,是掌控我们社交渠道的大公司,只要他们想,就可以轻而易举的控制舆论,让民众很快忽略、忘记一些事情

拥有越来越多智能工具,并不能是我们惰于思考的借口。相反,我们所需要的是在技术的加持下,更努力去探究世界的真相

点击阅读原文