
系统监控:AI收入有望伴随应用爆发、IT系统技术堆栈复杂化而显著增加。与其他应用类似,大模型在运行过程中仍然需要对于性能指标进行实时的监测和分析,包括CPU和GPU的利用率和负载情况、内存和存储使用情况、网络带宽和延迟、模型训练和推理速度,以及模型的异常情况和错误信息等,这依然需要ITIM、NPM、日志管理工具的配合。但与此同时,考虑到大模型本身的特殊性,在训练和部署环节同样需要专用的工具完成相关指标的监控、调整和可视化,其中包括1)实验管理:在训练环节对于学习率、正则强度、批量大小、迭代次数等超参数空间的系统性搜索,选择最优超参数组合,并记录和可视化训练、评估过程;2)性能监控:在推理环节对于损失函数、准确率、 F1 值等各类模型性能指标的监控和可视化,横向&纵向比较模型的性能变化。我们看到,目前Datadog已经在GPU基础设施、API调用、向量数据库等AGI各相关技术栈进行全面布局,提供各个领域的性能监控能力。Datadog也在2023年三季度财报中表示,正在开发自己的LLM可观测性产品,这将有助于监测和分析大型语言模型的性能和行为,为客户提供更多洞察。这也意味着Datadog将和大模型专用监控工具领域Weights&Biases、Comet ML、Arize等展开竞争。2023年三季度,Datadog表示AGI原生客户约占整体ARR的2.5%,目前主要是模型提供商贡献收入,而后续AI应用的爆发有望为ARR带来更多增量贡献。