加入收藏 | 设为首页 | 会员中心 | 我要投稿 东莞站长网 (https://www.0769zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

需要这三个机器学习工具

发布时间:2021-04-18 13:43:35 所属栏目:传媒 来源:互联网
导读:简化软件的创建,必须创建工具以跟踪问题,管理版本历史记录,监督构建,并在生产中出现问题时提供监控和警报。 虽然不是每个工具都清晰适合其中一个桶,但这些工具类别中的每一个都代表了创建软件过程中的不同摩擦点,这需要创建工具。 我以为这是关于机器

简化软件的创建,必须创建工具以跟踪问题,管理版本历史记录,监督构建,并在生产中出现问题时提供监控和警报。

虽然不是每个工具都清晰适合其中一个桶,但这些工具类别中的每一个都代表了创建软件过程中的不同摩擦点,这需要创建工具。

我以为这是关于机器学习?

正如开发软件的过程一样,开发机器学习模型的过程具有广泛的类别,如研究,构建,部署和监视模型所需的内容。

在这件作品中,我们将重点关注在解决实验室外应用机器学习中的一些最大障碍过程中出现的基本ML工具类别。

要创建有效的机器学习工具箱,您真的只需要这3个基本工具:

  • 特征存储:处理离线和在线特征转换
  • 模型存储:作为中心模型注册表和跟踪实验
  • 性能评估存储:监控和改善模型性能

    征存储

    要开始,让我们潜入潜水。要定义特征存储的内容,让我们从一个特征存储开始为您的团队启用的东西。

    特征存储启用应该是什么:

    • 作为特征转换的中心源
    • 允许在离线训练和在线服务中使用相同的特征转换
    • 使团队成员能够分享他们的实验转变
    • 提供强大的版本控制特征转换代码

    在一个特征存储应该如何授权您的团队,这是必须帮助您决定哪种功能存储最适合您和您的团队的功能。

    您的功能存储应该具有:

    • 与您的数据存储/湖集成
    • 一种快速的方法,可以提供在线部署模型的特征转换
    • 快速轻松地部署到生产中的特征转换代码
    • 与您的性能评估存储集成以启用数据和功能质量检查

    推荐:Tecton

    模型存储

    既然您有一个存储您的特征转换的特征存储,您需要一个目录并跟踪团队模型创建历史记录的工具。这是模型存储发挥的地方。

    模型存储启用是什么:

    • 作为所有模型和模型版本的中央存储库
    • 允许每个型号版本的再现性
    • 轨道模型历史历史

    在这些核心功能之外,有许多模型存储功能,您可能会发现真正有助于建设和部署模型。

    您的模型商店应该有:

    • 应该能够为模型的每个版本,git提交,模型的工件(泡沫文件)的每个版本都能跟踪引用的数据集(泡沫文件)
    • 应该提供最新版本的任何型号才能提供E.G(v2.1)
    • 如果需要,保持一致的谱系以回滚版本
    • 与您的评估存储集成,以跟踪每个版本的模型的评估,以便针对模型回归
    • 与您的服务基础架构集成,以促进模型部署和回滚

    推荐:Weights & Biases / MLFlow

    性能评估存储

    既然您的模型跟踪并存储在模型存储中,您需要能够选择一个模型来运送和监视它在生产中的性能表现方式。这是评估存储可以提供帮助的地方。

    评估存储应该启用什么:

    • 在任何环境中的任何型号的聚合(或切片)中的性能度量,在任何环境中,生产,验证,培训
    • 使用基线监控和识别漂移,数据质量问题或异常性能降级
    • 使团队能够将性能的变化连接到它们发生的原因
    • 提供一个平台,以帮助使用高质量和反馈循环连续提供型号,以进行改进 - 比较生产到培训
    • 为A / B测试模型版本提供实验平台

    现在转向我们对评估存储的必备功能的关注,这里有几件事让特定的评估存储值得考虑。

    您的评估存储应该有:

    • 存储模型评估:在环境中输入,Shap值和输出,适用于环境的每个型号版本:生产,验证和训练
    • 自动化监控以轻松地表面问题 - 基于来自评估存储的基线
    • 为任何类型的性能分析创建灵活的仪表板 - ML的DATADOG
    • 与您的功能存储集成以跟踪功能漂移
    • 与您的模型存储集成,为每个型号版本具有模型性能的历史记录

    推荐:Arize

    可能适合您的其他工具

    数据注释平台:

    让我们退后一步,并说你刚刚收集了你的数据,这可能是或可能没有地面真理标签。现代统计机器学习模型通常需要大量的培训数据表现良好,并能够用地面真理标签注释足够的数据,使您的模型有效可以是挑战。

    不要担心,数据注释平台将数据的批量分发到分布式的分布式年级集,每个分布式集会器都将根据您提供的指令标记您的数据。

    推荐:

    • Appen
    • Scale 用于全自动数据注释服务

(编辑:东莞站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读