我们将从主概览屏幕开始。其中列出并监控了用于批量评分的 Dataiku 项目和用于实时评分的 API 端点,以及 AzureML、AWS SageMaker、Google Vertex AI、Databricks 和 Snowflake SPCS 上的 API 端点。概览屏幕充当分类仪表板,将任何带有错误和警告的部署显示在顶部,以便操作员可以快速识别需要注意的问题并解决它们。用户可以单击对象以显示更全面的视图,列出所有部署详细信息。
统一监控
统一监控中的概览显示了每个基础设施上有多少个部署。
列出所有部署详细信息。
Dataiku 项目
Dataiku 项目仪表板概述了 Dataiku 自动化节点上的所有批量部署项目,具有六种关键状态:全局、部署、模型、执行、数据和治理。每种状态可以有四个可能的值:健康、警告、错误、无状态。每种状态都一目了然地回答一个重要的部署问题:
全局:所有状态是否健康且正常运行?
部署:部署是否已启动并正在运行?
模型:所有模型健康检查(例如数据或性能漂移)是否都通过?
执行:所有自动化场景是否都无错误或警告地运行?
数据:数据是否通过了给定项目中的所有数据质量规则?
治理:部署是否有适当的签署?
这些指标有助于快速识别项目中的潜在问题。例如,如果模型状态显示警告,则 ML 工程师可以重新访问项目以检查模型评估存储。同样,执行状态中的错误可能表示存在问题的自动化场景。这些状态为您提供了一种快速、高效且标准化的方法,可以一目了然地找出问题所在。
按不同阶段和状态过滤仪表板,以便仅查看对您重要的信息。
按不同阶段和状态过滤仪表板,以便仅查看对您重要的信息。
API 端点
最后一个屏幕是 API 端点仪表板。此屏幕上的每一行表示一个单独的端点,来自 Dataiku API 节点或基于云的节点。端点拥有三种状态类型,类似于 Dataiku 项目的状态类型,但也有特定于实时评分的详细信息。
将鼠标悬停在活动图上将显示过去 24 小时内特定时间的端点体积。
将鼠标悬停在活动图上将显示过去 24 小时内特定时间的端点体积。
可以一目了然地查看响应时间、容量和活动等关键健康详细信息,使 IT 运营商和 ML 工程师能够评估 API 的性能和可靠性。即时可见性可帮助团队主动解决问题,优化实时用例的资源分配,并通过确保 API 运行良好来改善用户体验。
高级设置
除了这三个仪表板之外,统一监控还允许管理员通过设置选择要明确监控的项目和 API 基础架构。他们还可以轻松访问完整的活动日志以进行故障排除。然而,高级设置中的突出功能是引入了监控范围。
添加范围以在统一监控仪表板中从云提供商、Databricks 或 Snowflake 读取部署详细信息。
添加范围以在统一监控仪表板中从云提供商、Databricks 或 Snowflake 读取部署详细信息。
这项独特功能允许将有关远程 API 端点的状态详细信息传递到 Dataiku 的统一监控仪表板。这意味着我们可以从部署在云服务、Databricks 或 Snowflake SPCS 上的任何模型快速了解 API 端点的运行状况和性能指标。
即使是来自不同的云环境,也可以同时将多个范围添加到统一监控。
即使是来自不同的云环境,也可以同时将多个范围添加到统一监控。
影响是巨大的。IT 运营商现在可以清晰、统一地查看所有ML 平台的部署状况,并可以在一个地方监 沙特阿拉伯 电话号码数据 控所有 MLOps 活动。
统一监控是前进的必要条件
随着越来越多的数据和 AI 产品在组织中投入运营,对有效监控的需求也越来越大。全面的监督和稳固的治理使组织能够加快进度并生成更多模型。建立一个管理和监督部署的自动化系统对于在这种环境下蓬勃发展至关重要。
这时统一监控就变得不可或缺了。无论位置或基础设施如何,对组织部署的单一、全面视图都是必需的。
让 Dataiku 通过统一监控和自动化、模型和部署的质量检查、端点响应细节等简化 MLOps。通过对整个生产进行全球监督,Dataiku 是一个让 MLOps 变得如您所愿顺畅的平台。