施然

华为公司轮值董事长徐直军表示,华为自2018年10月发布AI战略以来,稳步而有序地推进战略执行、产品研发及商用进程

华为正在逐步向外界释放代表其能力高点的新技术。在鸿蒙操作系统之后,华为在8月23日亮出下一颗牙齿——异腾910。

和鸿蒙一样,异腾(Ascend)是华为山海经军团重要成员之一。不同的是,鸿蒙盖头只是轻揭一角,异腾已是华为AI全栈战略中的重要角色。

去年10月,在华为的全联接大会上,华为轮值董事长徐直军发布两款AI芯片异腾310和910。当时,采用7nm工艺制程的异腾910最受外界关注,原因在于它的计算密度目前最大计算力远超全球AI芯片巨头谷歌和英伟达。

华为在8月23日发布了异腾910芯片及配套的MindSpore训练框架,并借此招徕更多开发者。这意味着,华为打算将AI生态做大做强。

鸿蒙的关键能力是自主操作系统,异腾之于华为,战略意义在于算力。在人工智能领域,数据是计算对象,算法决定计算上限,算力决定计算效率。全球各大科技巨头在算法上均有部署,差距不大,算力是巨头们争抢的下一个高地,毕竟,要让更多开发者和使用者加入自己的生态,便宜高效的算力是决定性因素。

这是一个算力决定竞争力的时代。当人工智能能力逐步成为下一个时代的通用能力时,计算力就是生产力。以手机为例,消费者手中的华为Mafe20手机,今天可以轻松实现人脸识别、物体识别、物体检测、图像分割、智能翻译等AI功能。背后依仗的是手机算力的大幅提升。

芯片性能的快速迭代,是算力快速进步的基础。今天,一部智能手机的计算力,已经比美国航空航天局1969年登月计划中最先进计算机还高出几百万倍。

手机端的芯片算力几年间已经发展到如此惊人,用于云端的AI芯片需要处理自动驾驶等复杂场景的海量数据,又需要多强大的算力呢?第三方数据分析机构OpenAI近期数据显示,2012年以来,人们对算力的需求增长六年超过30万倍,平均每年增长10倍,远超摩尔定律的发展速度。

从技术发展角度来看,这是因为,深度学习神经网络需要对张量(可以简化理解为矩阵)进行大规模并行计算,颠覆了传统的浮点计算,对算力的需求正在出现指数级的爆炸式增长。例如,原来1个时钟单元只能进行1次浮点计算,现在可以通过新的算子同时对N*N的矩阵计算,如果N=10,那就是同时计算了100次,计算次数较原来增长了100倍,新算子带来了对新芯片更强大算力诉求。

算力需求在增加,没有人可以忽略这个趋势。

把专用NPU AI芯片放进手机

人工智能改变一切,这已是不争的事实。人工智能三要素(数据、算法和算力)中,算力最不起眼,但最考验硬件能力。中国在数据方面具备优势,算法与算力环节仍在追赶和发展过程中,芯片与硬件的发展水平决定算力能力。

也正因此,算法科学家、工程师和应用厂商面临着AI算力稀缺和昂贵问题,大大抬高了算法研究和创新门槛,阻碍了人工智能的普及应用。

过去三年,中国科技巨头和AI独角兽着力提升算法能力,此后,算力的提升开始被视为下一个竞争高点。承载算力的AI芯片在金钱、时间和人力各方面的研发成本高昂,但各厂商都开始打造各自的芯片体系。

不过,AI芯片设计复杂,门槛更高,多数厂商目前的AI芯片产品多为聚焦于某一应用或某一场景的特定芯片,华为的布局有所不同。

智能手机是华为的核心业务,华为首先将AI芯片放进了手机。

在一部小小的智能手机里,无论是AI基础功能还是场景化AI服务,都需要手机完成复杂深度学习算法模型运算,计算密集复杂,计算需求巨大,挑战实时性。

智能手机体积小,使用频率高,运行环境受限,功耗、内存、存储空间的挑战也大,强大的算力可以保证更好的运行环境和使用体验。

从2017年开始,苹果、华为在内的手机厂商开始发力攻破这个问题。

2017年9月,华为发布全球首款移动端AI芯片麒麟970,一个月后发布了搭载麒麟970的旗舰手机Mate10。麒麟970是全球首款内置了独立神经网络处理单元(即NPU)的人工智能芯片。

华为第一个将NPU引入手机芯片,此后,苹果、三星等全球主流智能手机厂商先后推出。短短两年,AI能力成为主流智能手机的标准配置。

麒麟970芯片可以用更少的能耗更快地完成AI计算任务。它内置的NPU性能大幅优于CPU、GPU和DSP这些通用计算单元,同时相比CPU又有约50倍能效和25倍性能优势。

NPU加持的好处是,不少手机功能会从“好看”变得更加“好用”。以智能语音功能为例,此前,语音功能在智能手机上并不鲜见,也算标配,但普遍不好用,原因在于,当时智能手机本身算力有限,不少计算需要在云端完成。加入了NPU,本地计算能力大大提升,AI会对当前语境和内容进行细致地分析,从而实现高准确率的识别体验,将语音识别的成功率提升到更高的级别。

从用户端的体验来看,这令语音助手变得更加可靠实用,越来越多消费者开始将传统的手动输入习惯改成了和智能手机语音互动。

另一个例子是手机拍照。AI的出现同样为喜欢手机摄影的人们带来新的改变。麒麟970搭载双通道ISP图像信号处理器,在动态影像捕捉和低光拍照上有很大的提升。双摄镜头+双ISP软硬件优化、再配合人工智能的计算机视觉分析,便能自动分析画面内的物体,并选择当前最佳的拍照模式,甚至可以进行物体追踪对焦和预测用户拍照时机。这是此前的手机相机无法实现的功能。

麒麟970的推出,成为传统智能手机和未来AI手机的重要分水岭,AI手机的发展也从单纯的算法优化进入了硬件能力的真人工智能比拼阶段。

2018年8月,华为又发布了全球首款7nm(纳米)人工智能手机芯片——麒麟980。

1纳米等于1毫微米(即十亿分2_--米),约为10个原子的长度。一根头发丝直径约为0.1毫米,而7nm相当于头发丝的万分之一。

7nm相当于70个原子直径,逼近了硅基半导体工艺的物理极限。也就是说,在不到1平方厘米的麒麟980芯片内部,分布着高达69亿个晶体管,可谓是“针尖上起舞”。华为消费者业务CEO余承东当时透露,麒麟980的7nm工艺是由超过1000多名半导体工程师组成的团队历时三年时间、经历超过5000多次的工程验证精心打磨的成果。

AI算力方面,麒麟980全面升级。以图像识别速度为例,麒麟970可达到每分钟约2005张,而麒麟980在移动端双NPU强大算力加持下,实现每分钟图像识别4500张,识别速度相比上一代提升120%。此外,还有人脸识别、语音助手、Al拍照及各类智能美拍P图等APP在手机上的全面升级。

到了2019年,华为推出麒麟810芯片,这是华为第二款7nm工艺的手机芯片,也是华为首款自研达芬奇架构NPU的手机芯片。

至此,华为完成第一轮在手机端的AI芯片布局。

“达芬奇”构建端边云算力大爆发基础

如果说华为在芯片上的持续投入属“居安思危”,显示远见与决心,那幺,华为在人工智能领域的野心则更为宏大,这一次,华为不仅要覆盖云、边、端各种场景,还要形成从应用使能到系统到芯片的闭环。

去年10月,华为在其全联接大会上首次提出全栈全场景AI解决方案,徐直军解释称,全场景,是指包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等部署环境。全栈是技术功能视角,是指包括芯片、芯片使能、训练和推理框架和应用使能在内的全堆栈方案。

其中,全栈AI的基础,是一系列基于统一的达芬奇架构的AI芯片——从IoT到终端(如麒麟芯片的NPU)、到边缘侧再到云。

达芬奇架构针对AI运算特征设计,以高性能3D Cube计算引擎为基础,提升算力和能效。出发点是云、边缘、端独立的和协同的AI实际需求,从极致低功耗,到极致大算力的AI场景,为云、边、端之间的算法协同、迁移、部署、升级和运维,提供了统一架构底层核心支撑,大大降低了人工智能算法开发和迭代的门槛,降低企业人工智能部署和商用成本。

目前,异腾(Ascend)芯片家族中的异腾310已经落地商用。

基于异腾310,华为陆续发布了包括Atlas200、Atlas300、Atlas500、Atlas800等产品,已被广泛应用于安防、金融、医疗、交通、电力、汽车等行业,涉及摄像机、无人机、机器人、智能小站、MDC(Mobile Data Center)等产品形态。

华为还上线了基于异腾310的AI云服务,华为云图像分析类服务、OCR服务、视频智能分析服务等超过50款API已经基于异腾310,日均调用量超过1亿次。大量企业客户正在借助异腾310芯片自己开发算法服务。

异腾310产品矩阵的成熟,令外界对异腾910的期待更盛。

去年10月,徐直军说,异腾910是计算密度最大的单芯片,最大功耗为350W,半精度为(FPl6)256 Tera FLOPS,比英伟达V100的125 Tera FLOPS还要高出近1倍。若集齐1024个异腾910,将会出现迄今为止全球最大的AI计算集群,性能也将达到256个P,不管多复杂的模型都能轻松训练。

简单说,异腾910是业界算力最高的AI处理器,相同功耗情况下,它的算力是业界芯片的2倍,最强CPU的50倍。

昇腾910和MindSpore的推出,标志着华为已完成全栈全场景AI解决方案的构建,AI战略的实行进入新阶段。

算力之外的全栈AI

异腾之外,华为提出的全栈AI,还包括支持端、边、云独立的和协同的AI训练框架MindSpore,芯片算子库和高度自动化算子开发工具CANN,提供全流程服务(ModeIArts)、分层API和预集成方案的应用使能。

2019年已经落地实现商用的,除了异腾310,还有其面向用户和开发者的门户——华为云ModelArts。

作为一站式AI开发平台,ModelArts可以为开发者提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。

2019年5月,在斯坦福大学DAWN-Bench榜单,华为云ModelArls获得图像识别训练第一,ImageNet-1k数据集上用128块V100 GPU训陈ResNet-50模型仅需要2分43秒。

2017年10月,斯坦福DAWN的训练时间是13天10小时41分钟。斯坦福大学DAWNBench榜单几乎聚集了国内外领先AI厂商,一位华为技术人士认为,ModelArts如果由异腾910加持,很有可能进一步刷新世界纪录。若再采用1024个异腾910的全球最大AI计算集群,可能还有更大的惊喜。

此时距离华为去年10月发布AI全栈战略已经过去将近一年。从端侧到边缘侧再到云侧,从底层硬件到深度学习框架再到上层应用使能,华为的全栈全场景AI战略正在逐步落地。

一年前的那次大会上,当时徐直军称,华为当下的任务是探索一套能够快速落地的AI战略实施路径,其中生态从无到有到兴盛,又是重中之重。新的故事,正在开讲。