不同 AI 跑分软件芯片跑分结果为何南辕北辙？外媒长文深度揭秘

2020-07-09 11:16IT之家 - 马卡

IT之家7月9日消息这两年来，智能手机的体验是越来越全面和出色，很大一部分原因，是依赖于 AI 人工智能技术的成熟和普及，比如离线翻译、图片识别、文字提取、智能提醒等等功能几乎成为了每一台智能手机的标配，现如今智能手机的功能已经远远超过我们 10 年前对手机的定义。

技术的进步，潜移默化地改变了我们的生活方式，特别当 5G 真正普及到智能手机终端时，AI 强大的智慧处理能力将发挥出巨大的能量，也正因此，AI 不仅成为各大手机厂商们炙手可热的宣传概念，更是被广大消费者所熟知和接受，成为购买一台手机的重要影响因素。

和处理器性能一样，消费者们了解一款手机的 AI 性能和算力，最直观的方式是通过跑分应用测试获得，针对 AI 跑分，目前市面上较为熟知的应用有三款，分别是安兔兔的 AI 跑分、AIMark（鲁大师）和苏黎世 AI 跑分应用 ETH AI Benchmark，其中 ETH AI Benchmark 还分为 V3 和 V4 版本，不少细心的小伙伴会发现，尽管都是同样的 AI 跑分应用，但针对不同处理器（比如同为旗舰的骁龙 865 和麒麟 990），跑分的成绩还各不相同，在 ETH AI Benchmark 中，麒麟 990 的跑分占更大优势，但是在安兔兔和 AIMark 中，搭载骁龙 865 手机的 AI 跑分明显要更高，那么这又是怎么回事呢？

外媒 Hothardware 近日就撰写了一篇名为《关于手机 AI 跑分，你需要了解些什么》的文章，深度解析了手机的 AI 跑分以及如何衡量 AI 和机器学习性能，我们具体来看。

在介绍 AI 以及 ML（机器学习）之前，要先了解到神经网络（NN）这个概念，因为这是 ML 和 AI 在训练和推理过程中不可或缺的部分。神经网络是受人类大脑活动启发的算法模型，通常需要基于大量数据进行训练，通过对数据的多层筛选，从而确定数据中的特定属性。

举一个通俗易懂的例子，神经网络的训练和学习过程，有点类似我们幼年时期开始认识万物的过程——比如说，猫和狗都有两只耳朵，那么如何判别眼前的是猫还是狗，需要我们不断的去认识新的猫和狗，在这个辨别的过程中，我们会记住猫除了两只耳朵之外的更多属性，比如可以收缩的瞳孔、喵喵的叫声、细长的尾巴等等，通过这些信息，我们可以判断所看到的是猫还是狗。神经网络的训练和推理也是一样，人类向 AI 系统提供大量的训练数据，判断某个数据片段是否满足特定的标准，实现自我 “推理”能力，最终为用户提供智能化结果。

当然，AI 和 ML 的背后远不止上述这些，IT之家在这里只是为大家做一个简单的介绍，更深一层技术在这里就不具体探究了。

Hothardware 在文章中指出，ML 和 AI 应用正在飞速发展，伴随运行应用的框架、硬件和训练神经网络的不断演进，大多数人可能难以判断哪些解决方案最适合特定的用例或应用。训练和推理过程对于计算能力有着极其不同的要求，充分满足运行特定应用所需的准确率可能需要一些专业数学或精确度。

目前，许多跑分工具所用的常见神经网络包括面向图像分类的 ResNet-34 和 Inception-V3、面向单一目标检测和移动视觉的 Mobilenet-SSD，以及面向图像语义分割的 Google DeepLab-v3 等。

现有的 AI 跑分往往彼此大相径庭，是因为，绝大多数手机 AI 跑分对整数 / 浮点性能的重视程度和赋予权重的方式不同。

这里要简单介绍一下 AI 计算中的两个重要关键词——FP16（半精度浮点数）和 INT8（定点计算方式）。

FP16 和 INT8 同为端侧 AI 计算深度学习模型中的常用数据格式，客观的讲，FP16 和 INT8 并没有完全的优劣之分，更多的是在不同场景下有不同的需求，针对不同的 AI 应用有各自不同的优势。

FP16 提供更高精度，比如在一些高精度图像处理的场景上，FP16 可实现更高精度的 “抠图”，但高精度相应的功耗也高了不少，医疗和其他对精准度要求较高的行业可能需要 FP16。

相比与 FP16，INT8 精度略低，但功耗更低，数据量小，计算速度也更快，具备能效优势，因此更适合移动终端，INT8 在移动应用中也最为常用。

以三款跑分 App 为例，鲁大师的 AIMark 采用了高通的平台软件开发包高通神经网络处理引擎 SDK，AImark 主要利用 AI 计算中 INT8 定点的神经网络模型来确定 SoC / 移动终端的 AI 性能，在一些实际场景中使用 AI 模型，INT8 应用更加广泛。在 AIMark 跑分中，高通骁龙 865 移动平台脱颖而出，865 配备了比前代平台更强大的第五代高通人工智能引擎 AI Engine。

安兔兔和鲁大师 AIMark 类似，可能也采用某个版本的高通神经网络处理引擎 SDK，因此跑分结果显示高通骁龙 865 的终端表现比其他移动平台出色得多。

在 ETH AI Benchmark 应用中，v3 版本的情况完全不同于前面运行的两个跑分应用，ETH AI Benchmark 采用 TensorFlow Lite（TFLite）和 Android 神经网络 API（NNAPI），使用这两套标准接口而非厂商自研的 SDK，此外 v3 版跑分特别重视浮点性能，该版本跑分中浮点运算的权重很高，同时，麒麟 990 有对浮点（FP）运算进行优化的专用 AI 处理器，因此麒麟 990 的得分遥遥领先。文章中，Hothardware 认为，ETH AI Benchmark v3 的结果似乎不太平衡，在 ETH AI Benchmark v4 测试结果中，虽然总体趋势未变，但麒麟 990 胜出的分值大幅降低。

在外媒测试的三个跑分程序中 INT8 定点和 FP16 浮点性能差别十分明显，AIMark 和安兔兔 AI 跑分的成绩很大程度上取决于 INT8 性能，而 ETH AI Benchmark 更重视 FP16，这就可以很好的解释，为什么不同平台之间的 AI 跑分成绩各不相同——芯片平台之间 AI 计算的方式侧重点是不同的。Hothardware 认为，INT8 和 FP16 并无优劣之分，但 INT8 通常能效比更好，其 AI 模型效率和精度也在不断提升，更适合手机这类移动终端，保持长续航。

当然，对于消费者而言，AI 的跑分高低并不能代表最终落实到消费者亲身的体验，我们更追求更高跑分，但在跑分之外，真实使用场景下的 AI 应用体验提升才是最重要的。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。