2019年大数据与AI领域主要发展趋势

发表于 讨论求助 2021-09-08 10:26:40

运营服务以下是Matt Turck(美国早期基金FirstMark合伙人)总结的2019年大数据及AI领域的主要发展趋势。他从基础设施、分析以及应用层面分别阐述了主要发展趋势,希望能给大家带来思考。 图片来自“网”

以下是Matt Turck(美国早期基金FirstMark合伙人)总结的2019年大数据及AI领域的主要发展趋势。他从基础设施、分析以及应用层面分别阐述了主要发展趋势,希望能给大家带来思考。

基础设施层面的趋势

第三波浪潮?从Hadoop到云服务再到Kubernetes

数据治理、数据编目、数据沿袭:数据管理的重要性与日俱增

专用于AI的基础设施的崛起

数据基础设施一直保持快速进化状态。这个速度保持了很多年,近期有加速进化的趋势,主要经历三个阶段:从Hadoop到云服务再到Kubernetes环境。

诞生于2003年10月的Hadoop可以算得上大数据领域的“鼻祖”。Hadoop是一个使用计算机网络对大量数据进行分布式存储和处理框架,在数据生态系统的爆炸式发展中发挥了绝对核心的作用。然而,在过去的几年里,宣布Hadoop死亡已经成为行业观察家们的常态。随着Hadoop供应商遇到各种各样的麻烦,这一趋势今年进一步加速。在撰写本文时,MapR已经处于关闭的边缘,也有可能已经找到了买家。最近刚刚完成52亿美元合并的Cloudera和Hortonworks在6月份经历了艰难的一天,由于令人失望的季度收益,股价暴跌了40%。Cloudera已经发布了多款云计算和混合产品,但目前还没有正式对外售卖。

由于来自云平台的竞争,Hadoop正面临越来越大的阻力。Hadoop是在云没那么完备的时候开发的,大多数数据是在本地的,那时网络延迟是瓶颈,将数据和计算放在一起很有意义。但这一切已经改变了。

然而,Hadoop不太可能很快消失。它的发展可能会放缓,但它在企业间的部署规模之大,将使其在未来几年保持惯性和生命力。

无论如何,向云的转变显然正在加速。有趣的是,在我们与《财富》1000强企业高管的交谈中,2019年似乎是一个真正的转变。在过去的几年里,讨论云的很多,但真正的行动都是本地部署,尤其是在受监管的行业。现在《财富》杂志1000强企业的许多高管都在积极转向云计算,其中有一部分活动涉及从传统的微软商店转向Azure。

因此,尽管云提供商的规模已经非常庞大,但它们仍在继续快速增长。2018年,AWS实现收入257亿美元,比2017年175亿美元增长46.9%。微软Azure的收入没有单独披露,但在截至2019年3月的季度中同比增长了73%。虽然这不是一个完美的对比,但是AWS的收入在同季度同比增长了41%。

随着云计算应用的深入,客户开始对成本望而却步。在世界各地的董事会会议室里,高管们突然注意到一个曾经很小的账目:他们的云账单。云计算确实提供了敏捷性,但它通常会带来很高的成本,尤其是当客户的注意力离开计价器或者无法准确预测他们的计算需求时。像Adobe和Capital One等AWS客户,他们的云账单在2017年至2018年的短短一年里增长了60%以上,达到了2亿美元以上。

成本,以及对供应商锁定的担忧,加速了向混合方法的发展,包括公共云、私有云和本地部署的组合。面对众多的选择,企业将越来越多地选择最适合自己的工具来优化绩效和经济效益。随着云提供商更加积极地实现差异化,企业开始采用多云策略,利用每个云提供商最擅长的领域。在某些情况下,为了优化经济效益,最好的方法是将一些工作负载保留(甚至是调回)在本地,特别是对于非动态工作负载。

有趣的是,云提供商正在适应企业计算能力向混合环境发展的现实,像AWS会提供类似于AWS前哨的工具,允许客户进行本地计算和存储的同时,还能将本地负载与AWS云上其他程序无缝集成。

在这个新的多云和混合云时代,Kubernetes无疑是冉冉升起的巨星。Kubernetes是谷歌于2014年推出的一个用于管理容器化工作负载和服务的开源项目,它正经历着与Hadoop几年前同样的热情,有8000名与会者参加了KubeCon活动,还有源源不断的博客文章和播客。许多分析师认为,RedHat在Kubernetes世界的重要地位,在很大程度上促成了IBM以340亿美元的大规模收购。Kubernetes的前景是帮助企业实现跨环境运行工作负载,企业的混合环境会包括数据中心、私有云以及一个或多个公共云。

Kubernetes作为一个特别适合管理复杂、混合环境的编制框架,也越来越成为机器学习的有吸引力的选项。Kubernetes使用相同的基础设施服务于多个用户,使得数据科学家不必成为基础设施专家,就能够灵活地选择他们喜欢的任何语言、机器学习库或框架,并训练和扩展模型,允许相对快速的迭代和强大的重现性。Kubeflow是为Kubernetes开发的机器学习工具包,它的发展势头迅猛。

Kubernetes相对来说还处于起步阶段,但有趣的是,因为数据科学家可能更喜欢Kubernetes的整体灵活性和可控性,上述情况可能标志着一种远离云机器学习服务的进化。我们可能正在进入数据科学和机器学习基础设施的第三个范式转变,从Hadoop(直到2017年?)到数据云服务(2017-2019),再到一个由Kubernetes和下一代数据仓库(比如Snowflake)主导的世界(2019-?)。

这种演变的另一面是复杂性的增加。当然,这里会有一个综合平台的机会。平台会抽象并简化对大量云底层基础设施的操控,让更广泛的数据科学家和分析师群体更容易访问这个美丽的新世界。

尽管角度不同,Serverless模式就是这种简化的一种尝试。这种执行模型允许用户编写和部署代码,而无需担心底层基础设施。云提供商处理所有后端服务,客户根据实际使用情况的付费。在过去的几年里,Serverless模式无疑是一个重要的新兴主题,这也是我们在今年的Data&AI领域中增加的新品类。然而,将Serverless模式应用于机器学习和数据科学仍有较多工作要做,像Algorithmia和Iguazio/Nuclio这样的公司是早期进入者。

数据环境日益混合的另一个后果是,企业需要加大努力来获得对数据的控制。

目前的数据环境非常复杂,有些位于数据仓库、有些位于数据湖、有些位于各种其他数据源,跨越本地部署、私有云和公共云,那应该如何查找、管理、控制和跟踪数据?这包含各种相关的形式和名称,包括数据查询、数据治理、数据编目和数据沿袭,所有这些都越来越重要和突出。

在混合环境中查询数据本身就是一个挑战,其解决方案要符合存储和计算分离的总体趋势。

数据治理是另一个迅速成为企业首要考虑的领域。数据治理的一般思想是管理数据,并确保整个数据生命周期(涉及数据有效性、完整性、可用性、一致性和安全性)的高质量性。值得注意的是,在2019年初,Collibra进行了一轮1亿美元的融资,估值超过10亿美元。

数据编目是数据管理的另一种日益重要的手段。有效的数据编目是综合企业各种数据资产的字典。它们帮助用户(包括数据科学家、数据分析师、开发人员和业务用户)能够自助发现和使用数据。

最后,数据沿袭可能是最新出现的数据管理类别。数据沿袭的目的是捕获跨企业的“数据之旅”。它帮助公司弄清楚数据在其生命周期中是如何被收集、如何被修改以及如何被分享的。许多因素推动了这一领域的增长,包括合规、隐私和伦理的重要性日益增加,也包括对机器学习管道和模型的可重复性和透明度的需求。

今年一直在加速发展的最后一个关键趋势,是AI专用基础设施的不断涌现。

管理人工智能管道和模型的需求导致了MLOps(或AIOps)领域的快速增长。为了呼应这种新趋势,今年的Landscape里面,我们添加了两个新的框,一个名为基础设施(各种早期创业公司包括Algorithmia、Spell、 Weights&Biases等等),一个名为开放源码(各种各样的项目,通常相当早,包括Pachyderm、Seldon、Snorkel、MLeap等等)。

ML工程师需要能够运行实验并快速迭代,在需要时访问如GPU等资源。在我们的Data Driven NYC活动中,我们介绍了一些早期初创公司,它们提供了诸如Spell、Comet、Paperspace等基础设施。

随着GPU数据库的崛起和新一代人工智能芯片(Graphcore、Cerebras等)的诞生,人工智能对基础设施产生了深远的影响。人工智能正迫使我们重新思考计算的本质。

分析层面发展趋势

商业智能(BI)正在整合

企业AI平台是一个趋势

横向人工智能仍然非常活跃

在商业智能领域, 正如前面提到的,过去几个月的明显趋势是大量整合,包括Tableau、Looker、Zoomdata和Clearstory的收购,以及SiSense和Perisco

发表
26906人 签到看排名