如今,人工智能已经成为一个流行的流行语,但大多数消费者可能不知道它与日常生活有着多么密切的联系。分析师和技术媒体中的一些人也可能会嘲笑这个术语在一些几乎不像真正人工智能的技术中使用的频率。也就是说,除了强大的数据中心之外,还有一些平台是人工智能处理和驱动其神经网络的天然平台。其中之一就是AI推理(用AI推理信息代替训练NN),边兜里用智能手机。
可以想象,从安卓到苹果的智能手机平台大不相同,但常见的语音转文本、推荐引擎等工作负载(如Google Assistant、Siri)广泛使用通用的AI NN模型,通过在设备上执行此操作,可以提高速度和延迟。
测量移动设备中的人工智能性能
随着任何新设备的推出和热门新应用的出现,精通技术的消费者和技术媒体成员希望能够测量和收集各种移动生态系统中设备的相对性能。此外,目前智能手机测试和评论中的AI处理性能正在发展。所以,各大应用商店当然会有各种各样的工具,号称可以衡量手机等移动设备的AI性能。而且——你猜对了——这些应用程序的创建肯定是不同的。
为了解决这个问题,我和Marco深入研究了HotHardware,分析了各种旗舰安卓手机在三个主流AI基准中的表现。在某些情况下,这些基准会产生完全不同的结果。
关键是更好地理解实际测试的具体基准度量。测试是否尽可能地代表了接近实际情况的工作量?理想的基准测试使用消费者可能使用的实际应用程序,但是短基准测试可以使用流行应用程序的相同核心软件组件来表示实际的性能预期。在这种情况下,这意味着我们需要知道这些基准工具将测试哪个神经网络,以及将使用哪个数学精度和人工智能算法来处理这些工作负载。
AI基准测试的正确标准是什么?
移动设备之所以有一个好的AI基准,是有一个比较深层次的细微差别,但简而言之,几乎所有的移动NPU(神经处理单元或专用AI引擎)都采用INT8或量化数学精度或FP16浮点精度,例如,使用ResNet-34等流行的NN或谷歌的DeepLab-v3在应用中对图像进行分类和分割。那是一只猫还是一只狗?这台相机应该用哪种色彩平衡?这些问题是人工智能试图从电话环境中推断出的问题,至少在成像工作负载示例中是这样,尽管还有许多其他问题。
目前,INT8的精度被认为足以满足大多数消费类移动应用的需求,压缩技术和先进量化技术的进步不断提高了INT8在移动设备上的精度,同时仍然实现了比FP16更低的功耗。FP16提供了更好的准确性,但在关键的智能手机电源预算中,它的成本更高。
因此,大多数支持AI的移动应用都采用INT8来提高能效。然而,并非所有可用的基准都以同样的方式衡量移动平台的性能。一些应用强调FP16的准确性,尽管它没有INT8使用频繁。此外,高通等公司的AI平台SDK(软件开发工具包)针对INT 8进行了高度优化。所以,问题是,就这些手机的真实AI性能而言,一些基准应用的测试结果到底意味着什么?和其他移动设备?从HotHardware收集的分数可以看出,高通和华为在一些领先的移动硅平台上的排名非常不同。显然,高通的骁龙865设备在INT8 NPU的处理吞吐量和实际AI性能方面似乎处于领先地位,这可能更接近移动应用中的现状。还值得指出的是,高通的骁龙移动平台目前支持美国大部分安卓手机,因此该公司对生态系统的影响深远。
分析师从移动人工智能的早期发展中获得灵感
基于边缘的人工智能和机器学习是一个快速变化的领域,它提供了越来越强大的功能和广阔的前景,并将在许多方面丰富我们的日常生活。因此,基准指标和用于衡量它们的应用程序也必须随着时间的推移而发展和变化。此外,与传统PC基准一样,未来几天,新闻、技术爱好者和精明的消费者将更加关注AI基准,因为AI已经成为移动体验和可用平台解决方案中更重要的组成部分市场。
因此,这些基准应用开发者和媒体将有责任对构成高质量移动AI基准的精细点和你自己的个人口袋AI助手的性能进行更现实的衡量。现在,如果基准测试没有采用常用的NN,真正代表了INT8精度的重要性,那就不得不质疑测试对普通消费者的价值了。但是,这里没有绝对值。目前的格局是这样形成的,但是AI技术正在以疯狂的速度发展,整个行业的其他部分将需要跟上发展。