【新智元导读】在机器学习深入工业界时,实际操作并没有想象中那么简单。要部署任何项目,都需要经过完整的生命周期,而这个周期对于开发机器学习模型至关重要。此文深入全面总结了从零开始到正式上线过程中的所有步骤,并总结了各个步骤的常用工具。
在这个「人人AI」的时代,很多人都会或多或少接触过机器学习(ML)。
似乎每一家需要数据的公司,都在尝试利用人工智能和机器学习来分析他们的业务并提供自动化解决方案。
「《财富》的商业洞察板块(Fortune Business Insights)预计,到2027年,机器学习的市值将达到1170亿美元。」
机器学习的火爆,使得许多没有相关背景的新手也纷纷跨入该行业。当然,这本身确实是一件好事,然而,我们也需要明白,将机器学习项目整合到实际生产环境中,其实远没有想象的那么容易。
图:Algorithmia公司基于750家企业得出的2020企业ML使用状态图像
「Algorithmia公司经过调查表示:55��事机器学习模型的企业尚未将其投入生产」
在这里可以一提的是,Algorithmia是一家提供简化机器学习的平台的创业公司,它在2017年6月已经从谷歌那里完成了一项价值1050万美元的a轮融资。
许多人似乎认为,如果有了训练模型所需的数据和计算资源,实现机器学习项目是相当简单的。
但是,其实这是大错特错的——
这种假设很可能会导致在没有部署模型的情况下,消耗大量的时间和金钱成本。
图:机器学习生命周期的朴素假设
在本文中,我们将深入详细地讨论机器学习项目的生命周期实际上是什么样子的,以及周期内每个阶段可以用到的一些工具。
没有那么简单:机器学习生命周期一览在现实中,机器学习项目并不简单,它是一个在改进数据、模型和评估之间循环往复的过程,并且永远不会真正完成。
这个循环对于开发机器学习模型至关重要,因为它侧重于使用模型结果和评估来细化数据集。此外,高质量的数据集是训练高质量模型最可靠的方法。
这个循环的迭代速度,决定了你需要花费的成本。幸运的是,有一些工具可以帮助你在不牺牲质量的情况下,加速这个循环。
图:机器学习生命周期的一个真实例子
与任何系统非常相似,即使是已经部署的机器学习模型,也需要不断的被监控、维护和更新。我们不能只是部署一个模型,然后忘记它,期望它在接下来的时间里,像在测试集上一样,在现实世界中有着很好的表现。
部署在现实世界环境中的机器学习模型需要被更新——因为我们会发现模型中的偏差,或者添加新的数据源,或者需要额外的功能等等。
而这些都会将整个项目带回到数据、模型和评估周期中。
下一节,我们将深入探讨机器学习生命周期的每个阶段,并重点介绍各个阶段可以用到的当下流行的工具。奚梦瑶挺孕肚和儿子自拍,嫁入豪门成生娃机器?超模梦近乎哪个软件背单词好(专门背单词机器)哪个机器皮肤(机器人lol皮肤)在家做加工厂,买设备自己在家加工