今天是MLPerf推理基准测试结果的第二个版本(0.7版)。和7月份公布的最新培训结果一样,新的推断数字显示,提交的公司数量增加了,支持的平台和工作负载也增加了。MLPerf推断的数字分为四类-数据中心、边缘、移动和笔记本。提交的公司从43家增加到327家,提交的公司从只有9家增加到21家。提交的公司包括半导体公司、设备原始设备制造商和几个测试实验室。这份材料中明显的遗漏包括谷歌和所有中国公司,包括之前的参与者阿里巴巴和腾讯。
作为快速更新,MLPerf是一个行业协会,旨在为机器学习(ML)/人工智能(AI)解决方案制定标准。MLPerf是一套衡量ML/AL硬件、软件和服务的训练和推理性能的基准测试。最新的推断v0.7结果只是推断结果的第二次发布。第一次是大约一年前。MLPerf组织不断努力通过代表真实人工智能工作负载的新模型或增强模型来增强基准测试套件。此外,该机构正在努力增加测试频率,目标是每年至少两次,考虑允许在主要版本之间发布测试结果,并努力添加其他限定符,例如用于评估AI平台效率的功耗数据。测试结果可以由电子价值链中的任何公司提供,并且可以随机审查。
每个细分类别包括“封闭”和“开放”细分。“封闭”部分指的是使用与参考模型相同的工作负载模型运行的测试。“开放”部分允许您更改模型,以便供应商可以展示相对于其他目标工作负载的性能。此外,目前市场上还有一些细分市场——“可用”产品,未来半年市场上的“预览”产品,以及针对仍在开发或刚刚在考虑的产品的“研究、开发或内部”实验室项目。为了保持一致性,我们的大部分分析都集中在封闭和可用的细分市场上。在某些情况下,产品没有所有测试的编号,因为没有提交编号或者无法达到99%的最低准确度。由于基准套件不断变化,因此在套件达到更成熟的状态之前,将数字与以前的结果进行比较并不是特别有用。然而,从结果中可以收集到很多东西。
对于数据中心应用,推理0.7v测试包括四个新的基准测试——代表自然语言处理工作负载的双向编码器表示和转换(BERT),代表推荐工作负载的深度学习推荐模型(DLRM),代表医学成像的3D U-Net工作负载,以及代表语音到文本工作负载的递归神经网络转换器(RNN-T)。在封闭类别中,结果类似于7月份发布的培训测试结果。加速平台在性能上大大超越了纯CPU平台。领先的加速器是GPU,领先的GPU是NVIDIA基于安培架构的全新A-100 GPU。在每一个工作负载中,前领头羊特斯拉(T4)GPU的性能提升都是显而易见的。这证明了安培架构的价值,它允许在单个GPU上有七个推理分区。在其他加速器中,只有Xilinx FPGA代表并且只属于开放类别。