头条
推荐列表
Dao Wei
By 超神经
当 AI 能够妙笔生花,你是否感受到了新时代的气息。
给一个开头,让对方接着写出后面的故事,也许会难倒一些人,那如果交给 AI , 它们可以做到多优秀呢?
近日,OpenAI 公布了一个自动文本生成模型,能够写出「真实感」十足的文章。
人为的给出开头,这个 AI 模型就能快速的补充成一篇完整的稿子。至于文字的可读性和流畅度,不提前告知的话,也许你都猜不出这是 AI 所作。
比如给他这样一个开头:科学家们有个令人震惊的发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英文。
这个 AI 模型生成的文章如下(部分):
这些生物有着独特的角,科学家们就以此为它们命名,叫 Ovid’s Unicorn 。长着四只角的银白色生物,在这之前并不为科学界所知。
……
虽然,这些生物的起源还不清楚,但有些人相信,它们是一个人和一个独角兽相交而诞生的,那时人类文明还不存在。 Pérez 教授说:“在南美洲,这样的现象很常见。”
……
如果要确认它们是消失种族的后裔,DNA 检测可能是唯一的方法。
它除了能够写出以假乱真的文稿,还具备阅读理解、问答、生成文章摘要、翻译文本等能力。
翻译:从法语到英语
数据集:WMT-14 Fr-En
原句 | Un homme a expliqué que l’opération gratuite qu’il avait subie pour soigner une hernie lui permettrait de travailler à nouveau. |
人工 | One man explained that the free hernia surgery he’d received will allow him to work again. |
AI 翻 | A man told me that the operation gratuity he had been promised would not allow him to travel. |
这个 AI 模型被称为 GPT-2 ,它是 GPT 的「升级版」。而它的残暴之处在于,这一次运用了更多的训练数据,和上一版的原理一样,但 GPT-2 是对 GPT 模型的直接放大,它在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。
通过分析输入的文本,GPT-2 可以执行基本的文本处理功能,它擅长语言建模任务,该任务就是让程序通过预测,给出句子中下一个单词的能力。随便给它一个标题, AI 就能完美的写下文章的其余部分,甚至还能附上假引号和统计数据。
有人这么说它,「想要一篇短篇小说?只要给它第一行,就能得到一个意料之外又不乏精彩的故事。如果有正确的提示,它甚至可以写出长篇小说。」
训练 GPT-2 的目标很简单:给定文本中前面的词语,去预测接下的词句。而训练数据集的多样性,却使得它可以完成大量不同领域的文本生成。
虽然技术上没有新的地方,但人家有矿产级别的训练,这也是为什么会造出了怪兽级别的新工具。
OpenAI 的研究人员表示,在各种特定领域数据集的语言建模测试中,GPT-2 都取得了优异的评定分数。作为一个没有在任何领域数据专门训练过的模型,它的表现,比那些特意打造的模型还要好。
几个月前谷歌推出的语言模型 BERT 引发了业内的广泛关注,一时间内不断刷屏,其 3 亿参数量刷新 11 项纪录的成绩让人赞不绝口。但 OpenAI 这次推出的 GPT -2 更为要命,它达到了 15 亿参数。
与以前最先进的人工智能模型相比,GPT2 模型「大 12 倍,数据集 大 15 倍,涉及范围也更广」。它是在一个包含大约 1000 万篇文章的数据集上进行训练的,这些文章是通过 Reddit 上投票超过 3 票的新闻链接而选出的。所训练的文本数据多达 40GB !
在 BERT 血洗 NLP(自然语言处理)各项顶级指标之前,OpenAI 的 GTP 就站在了一流高手之列,而新出的 GPT-2 训练的数据量也直接把这一领域带到了新的高度。
有了 BERT 和 GPT-2 ,NLP 的道路肯定会红红火火,至于说怎么样更好的造福人类,这还是一个慎重的话题。
艾伦人工智能研究所的研究人员 Ani Kembhavi 表示,对 GPT-2 感到兴奋的一个原因是,预测文本可以被认为是计算机的「超级任务」,一旦解决了这个挑战,将开启智慧的大门。
遗憾的是,这么强大的工具暂时还不能公布出来。而背后的考虑是它可能会带来的隐患问题,比如生成假新闻,恶意评论,制造垃圾邮件等等。这样的武器用在非法的途径,造成的后果也是灾难级的。
对于这个方面,开发者也感到了担忧。 OpenAI 的研究人员说到他们无法预测会带来什么。目前他们仍在探索之中。出于种种原因,他们对项目所分享的内容非常谨慎,目前对主要的基础代码和培训数据不予公开。
他们指出谨慎的另一个原因在于,如果有人提供 GPT-2 关于种族主义,暴力,厌恶女性或辱骂性的文本,将造成很危险的局面。毕竟,它是依赖于互联网训练的。
不否认这项技术将带来巨大的变革,但任何一个工具,在图谋不轨者的手中,都会带来灾难性的后果。
而且由于 GPT-2 所写的文本都是新生成的,不存在复制粘贴的问题,用以往的检测手段中更难发现和排查,这将会是一个潜在的威胁。
那么,关键的问题来了,这篇文章是 AI 写出来的吗?