头条
推荐列表
资讯
Dao Wei
By 超神经
「对于 2019 年数据科学、机器学习和人工智能,我们做出了 5 个预测。同时还回顾一下去年做的预测,看看有哪些是真的发生了。」
作者:William Vorhies
DataScienceCentral 编辑部主任; Data-Magnum 总裁兼首席数据科学家; EB5C 主席
预测 1:模型制作和数据准备将变的更加自动化。更大的数据科学运营会集成到一个平台上。只需少量的数据科学家就能胜任许多工作。
这个猜对了,随着高级分析平台上端到端的集成,无代码的数据科学正在崛起。
预测 2:数据科学会朝着专业化方向发展,而「全栈」的数据科学家将不复存在。
同样猜对。现在人们对数据工程师的关注度要高于数据科学家。因为数据工程师更加的实用。
预测 3:非数据科学家比数据科学家更能胜任大量而复杂的分析。
事实如此。从 Data Viz 和 Visual Analytics 的流行,就可以看出,非数据科学家从复杂的数据科学工具中获得了更多的价值。
预测 4:深度学习困难重重。没有多少数据科学家熟练能掌握这一领域,这会限制人工智能的应用,除非深度学习平台更加简洁化和产品化。
微软和谷歌都推出了自动深度学习平台,它们从迁移学习开始,朝着完整的 AutoDL (自动机器学习)发展。此外还有一些集成的 AutoDL 平台。比如 one clicks. ai,就有的完整的 AutoML 和 AutoDL 平台。 Gartner 最近提名拥有 AutoDL 平台的 DimensionalMechanics 为「五大潮流公司」。
预测 5:尽管被大肆炒作,但人工智能及深入学习的渗透,以及对市场的影响的广度和深度都不尽人意。
除了聊天机器人的快速发展, AI 的应用其实很有限。 AI 被吹的有些高了,在实际的公司中,真正用到 AI 和机器学习的比例也很小。
预测 6:公众(和政府)将开始认真研究 AI 的社会和隐私影响。
看看美国政府以及欧盟即的一些动作,就知道这些问题正在受到重视,如加利福尼亚州即将生效的隐私规范,以及澳大利亚的反加密声明。
没有悬念的,我们在去年的 6 个预测全都正确。虽然一些看法在今年依然如此,但我们还是尝试做出更具体一些预测分析。
深度学习和经典机器学习算法方面,已有一年多没有较大突破了。使用的是稍作改进时间卷积网(TCNs),代替掉了 RNN 以减少 NLP 的延迟,但丝毫没有创新。好的算法要么早有名气,要么就是能用自动机器学习弄出来。
目前这个时期,拥有大量优质数据是公司实现数字化转型的关键,这同时也衍生出了数据提供方案的竞争和机会,大致有下面几个方向。
第一个方向是如何获得准确标记的训练数据。像 Figure Eight 之类从事标签数据的公司,正在推广具有成本效益的智能策略。比如主动学习就能在标记数据和确保模型精度之间作出最佳选择。
第二个方向是访问第三方数据。像 DymstData 这样的服务公司,已经进入该领域作为数百种附加数据提供清算所。他们还承担着保护敏感 PII 的作用,他们的用户可以强制执行角色访问某些敏感信息,这对金融和医疗服务中尤为重要。
第三个方向是自动跟踪并记录模型中数据的来源。特别是由多个来源的流数据被集成,而且实时变化时,知道数据来源以及如何使用它,是很重要的一个方面。 Tibco 和其他一些分析平台正在整合此项功能。
纵览 AI / ML 的创业公司,可以看出竞争正在转向行业或特定的程序。这些程序或迷你平台,是专注于解决各种业务中的行业特定问题,如营销,B2B 销售,医疗保健,金融科技以及其他定义的分组。
这些新应用程序专注于嵌入 AI / ML ,从而在企业更新时,不需要大型内部数据科学家组的支持,只依赖这些开发人员。
有人称这为 AI / ML 的商品化,但更准确地说,这是 AI / ML 的专业化。
这样的转型,就像是 90 年代后期 ,从流程改造(Reengineering)到企业资源规划(ERPs)的转变。当时 Reengineering 呼吁公司使用复杂的定制开发 IT 解决方案来改进流程,这为 Oracle,PeopleSoft,SAP 等主要集成 ERP 以及 CRM 等企业打开了大门。
新的供应商都致力于在他们的特定市场中提供广泛的解决方案,但不可避免地最终得出 ERP 规模较小的平台。
另外还要关注那些没有大型数据科学团队,或完全依赖定制开发模型的中型和小型公司,注意它们加快 AI / ML 采用率的问题。
这不是说世界已经放弃了数据科学家。还需要一个过程。但当你缺乏某些技能时,市场会以不同的方式填补这种空白。
一种方法是通过上面讨论过的行业和流程特定的智能应用,这些应用程序不需要大量的内部数据科学家。
第二种方法是迅速出现的自动机器学习(AML)平台。这在数据科学中更高效,意味着更少的数据科学家可以完成许多工作。
由于模型的数量没有减少,反而增加了,这会将工作担子转移给那些具备两方面技能的数据工程师。
首先,他能够创建数据科学所需的基础架构,如数据湖和 Spark 实例。
其次是采用模型,并确保它们在操作系统中实现,并跟踪准确性和刷新。
有一些数据工程师还要负责数据操作 ,确保数据流的清洁和预处理。
分析平台的另一个趋势是视觉分析和数据可视化工具的发展。现在,这些工具大部分与数据科学工具集完全集成,能让数据分析师和 LOB 经理提取更多价值,甚至指导分析工作。他们不会取代数据科学家,但强化了高级分析正在团队里的作用。
这两种不同的技术同时都处于半成熟状态,以解决长期存在的问题——延迟。
例如,考虑当您想要使用移动设备,将文本或图像的单词进行翻译时,您的设备会将该信号发送回发生到翻译云中的应用程序,然后再返回到你的设备。
谷歌和其它即时翻译服务,已经从 RNN 转移到专门的 CNN 结构,也就是时间卷积网络,因为 RNN 不能很好适应 MPP,但 CNN 却可以。这个转换减少了延迟,但信号还是完整的。
解决此问题的一种技术是 5G 网络。大家都知道 5G 会很快,但它真正的好处在于可以承载更大的流量。
第二个解决方案是引入新的神经形态芯片(也叫脉冲神经网络)。这种神经网络架构可能是实现通用人工智能(AGI)的关键。但还需要些时日。
当前主要的芯片制造商和一些初创公司,正在研发脉冲神经网络的专用芯片,针对 CNN 和 RNN 的进行了优化,其中一些还针对极低功耗做了优化。
这些功能结合在一起,会将深度学习转移到网络边缘的芯片上。从今年开始,对于物联网和其他流媒体数据应用,会怎样被点燃,就拭目以待吧。
目前文本,语音,图像和视频模型已发展成了主流,但发展还是遇到了很大的障碍。因为在一个框架(如 Caffe2,PyTorch,Apache MXNet,Microsoft Cognitive Toolkit 和 TensorFlow)上构建的模型,无法轻松移植到另一个框架。
幸运的是,这也推动了一些创新之举。比如 AWS,Facebook 和 Microsoft 合作构建的开放式神经网络交换平台(ONNX),使模型可以在不同的框架上实现互操作。
随着开发人员,应用程序和设备之间共享的模型数量增多,ONNX 将会是今年的一项关键技术。
这就是对今年情况的一个预测。就等着明年的时候回过头来,看看这个领域和所想的有什么不同。