2020年10月26日 星期 一 欢迎您来到 中国船舶供应网

/ EN

中国船舶供应网

www.shipsupply.org.cn

协会会刊

中国AI从“芯”开始 2020/02/28 10:37:26   来源:


寒武纪成了全球炙手可热的AI芯片厂商,在未来数年,全世界有数亿终端设备有望通过集成寒武纪处理器来获得强大的本地智能处理能力。

 

  翻开寒武纪的创业史,我们有一个惊人的发现:这家成立于2016年的创新型科技企业,在3年的时间内开创了7个“全球第一”:研发了全球第一个深度学习处理器架构(DianNao)、全球第一个多核深度学习处理器架构(DaDianNao)、全球第一个通用机器学习处理器架构(PuDianNao)、全球第一个深度学习处理器原型芯片(寒武纪)、全球第一个智能处理器专用指令集(寒武纪指令集)、全球第一个商用智能处理器IP产品(寒武纪1A处理器),赋能全球第一个人工智能手机芯片(华为麒麟970芯片)。

 

  作为全球智能芯片领域的先行者,寒武纪是第一个成功流片(批量生产实物芯片)并拥有成熟产品的智能芯片公司。业内人士如此评价,寒武纪在深度学习处理器指令集上的开创性进展,为我国占据智能产业生态的领导性地位提供了技术支撑。深度学习处理器已经成为计算机体系结构国际会议ISCA最关注的研究方向之一。ISCA 2016上有近1/6的论文引用寒武纪的工作来进行深度学习处理器探索。

 

  与一些国内AI芯片公司专注于单点应用或平台不同,寒武纪立志做AI领域的通用芯片。陈天石表示,目前寒武纪拥有终端智能处理器IP和云端智能芯片两条产品线。“未来,我们将持续按照独立芯片公司的技术路径走下去,将端和云的智能处理彻底打通。在人工智能整个生态链上,服务广大云计算、大数据、服务器厂商,服务互联网公司,服务行业巨头,为下游厂商提供不同尺寸、面向不同应用场景的终端AI处理器IP以及覆盖inferencetraining的不同处理能力的云端智能芯片。”

 

  中国AI产业从此踏上新征程。

 

  打虎亲兄弟,寒武纪书写中国芯片传奇

 

  在过去很多年里,中国的芯片一直依赖进口。据工信部的数据显示,2013年我国集成电路进口高达2313亿美元,同比增长20.5%。事实上,中国有十余年集成电路进口额超过石油,长期居各类进口产品之首。而到2014年为止,我国每年生产全球77%的手机,然而自主芯片却不到3%。全球半导体市场规模超过3000亿美元,而国内制造的芯片只占国内市场份额的不到10%。因为不能自主制造芯片,所以损失订单的80%收益。直到2016年寒武纪的出现,才彻底改变了中国芯片受制于人的窘境。

 

  寒武纪是中科院计算所孵化的企业,由来自江西南昌的陈云霁、陈天石兄弟俩共同创立。陈氏兄弟可谓少年天才,哥哥陈云霁生于1983年,9岁就上了南昌十中,14岁便考入中国科学技术大学少年班,24岁已取得中科院计算所博士学位,29岁晋升为研究员,33岁荣获中国青年科技奖和中科院青年科学家奖。弟弟陈天石生于1985年,16岁考入中国科学技术大学少年班,25岁获得中国科学技术大学计算机学院工学博士学位,历任中国科学院计算技术研究所助理研究员、副研究员、研究员(正教授)和博士生导师。在处理器架构和人工智能领域深耕十余年,是国内外学术界享有盛誉的杰出青年科学家,曾获国家自然科学基金委员会“优青”、中国计算机学会科学技术一等奖、CCF-Intel青年学者奖、中国计算机学会优秀博士论文奖等荣誉。

 

  兄弟俩的导师是“龙芯之父”——龙芯中科总裁胡伟武教授。陈云霁从2002年开始跟随胡伟武做龙芯CPU,一干就是12年。龙芯CPU是中国第一代国产CPU,其意义可以上升到国家战略层面。目前使用龙芯CPU芯片的企业超过500家。

 

  陈氏兄弟的博士研究方向不同,陈云霁主攻芯片研究,陈天石聚焦人工智能。2008年,陈氏兄弟决定联手做人工智能和芯片设计的交叉研究。促使他们做出这一决定的,是当时的产业环境。其实在2007 年以前,由于当时算法、数据量等因素,这个阶段的 AI 芯片并没有特别强烈的市场需求,通用的 CPU 芯片即可满足应用需要。但是2007年以后,随着高清视频、VRAR游戏等行业的发展,通用的 CPU 芯片无法满足应用需要,GPU 的并行计算特性恰好适应人工智能算法及大数据并行计算的需求,且在深度学习算法的运算上比CPU提高几十倍的效率。进入 2010 年后,云计算广泛推广,人工智能的研究人员可以通过云计算借助大量 CPU GPU 进行混合运算,进一步推进了 AI 芯片的深入应用,从而催生了各类 AI 芯片的研发与应用。

 

  在随后的2012年,法国国家信息与自动化研究所(Inria)的Olivier Temam教授第一次提出了AI加速器的概念,并与陈氏兄弟启动了DianNao项目,这也是寒武纪的技术来源。接着在2013-2015年期间,DianNao项目一共发布了四篇与AI加速器有关论文,包括:深度学习处理器、多片版本的深度学习处理器、摄像头智能识别处理器、以及通用机器学习处理器。2016年,陈氏兄弟推出了神经网络通用指令集DianNaoYu,这也是寒武纪自主研发的神经网络专用指令集Cambricon ISA的前身。

 

  但是实验室的成就并不是陈氏兄弟的目标,他们要让科研成果走出实验室,给大家带来生活上的改变。20163月,北京中科寒武纪科技有限公司在中关村(8.230, 0.10, 1.23%)注册成立,并获得千万级天使投资。

 

  牛刀初试,首款产品击败苹果

 

  在技术和资金的双轮驱动下,寒武纪在成立当年就发布了世界首款商用深度学习专用处理器(Cambricon-1A),面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,并入选第三届世界互联网大会(乌镇)评选的十五项“世界互联网领先科技成果”。

 

  寒武纪1A处理器支持视觉、语音、自然语言处理等多种智能任务,一经推出便被华为看中,集成到麒麟970处理器中,应用在华为Mate10手机中。这是中国手机行业首次引入人工智能概念,麒麟970处理器因此名声大噪,而寒武纪也因此一炮而红,拿到了上亿元的订单。

 

  “寒武纪1A深度神经元网络处理器就是在计算机里用虚拟的神经元和虚拟的突触把他们联结在一起,构成多层次的人工神经元网络。这些神经元网络具有非常好的效果,比如在语音识别和视频识别领域里,它的识别精度已经超越了人类。”陈天石介绍,“为了让这个深度神经元网络连接更快,我们设计了专门的存储结构,还设计了完全不同于通用CPU的指令集,因此它变得非常非常快,每秒可以处理160亿个神经元和超过2万亿个突触,可以跟苹果产品一较高下。”

 

  后来的事实证明,就在2016年,搭载寒武纪1A的华为麒麟970靠每分钟识别2005张照片击败了苹果A11芯片每分钟的889张照片。寒武纪1A处理器依靠最先进的、稀疏化的技术,四两拨千斤,让华为Mate10的智能处理速度打败了强大的苹果iphoneX

 

  寒武纪1A处理器可以说是目前最早量产的、出货量最多的AI芯片IP。目前麒麟970已经搭载了在华为Mate 10P20、荣耀V10这三系列手机产品上,累计出货量达数千万台。

 

  由端入云,主导AI产业生态

 

  继2016年成功推出1A之后,资本纷纷聚焦寒武纪。2017年,寒武纪完成了1亿美元A轮融资,由联想创投、阿里巴巴创投、国投创业,国科投资、中科图灵、元禾原点(天使轮领投方)、涌铧投资(天使轮投资方)联合投资。在这一轮融资完成后,寒武纪的估值已经达到10亿美元,迅速发展成为国内首屈一指的AI独角兽。

 

  而所有的融资都是为了更快推出新产品。20185月,寒武纪发布了第三代IP产品1M,在TSMC 7nm工艺下8位运算的效能比达5Tops/watt (每瓦5万亿次运算),提供三种规模的处理器核(2Tops/4Tops/8Tops)以满足不同应用场景下不同量级的智能处理需求,并可通过多核互联进一步提高性能。

 

  寒武纪1M延续了寒武纪前两代IP产品(寒武纪1H/1A)的完备性,单个处理器核即可支持CNNRNNSOM等多样化的深度学习模型,并更进一步支持SVMk-NNk-Means、决策树等经典机器学习算法,支持本地训练,为视觉、语音、自然语言处理以及各类经典的机器学习任务提供了灵活高效的计算平台,可广泛应用于智能手机、智能音箱、智能摄像头、智能驾驶等不同领域当中。

 

  与此同时,Cambricon MLU100云端智能芯片也首次亮相。MLU100采用寒武纪最新的MLUv01架构和TSMC 16nm的先进工艺,可工作在平衡模式(1GHz主频)和高性能模式(1.3GHz主频)下,平衡模式下的等效理论峰值速度达每秒128万亿次定点运算,高性能模式下的等效理论峰值速度更可达每秒166.4万亿次定点运算,但典型板级功耗仅为80瓦,峰值功耗不超过110瓦。

 

  与寒武纪系列终端处理器一样,MLU100云端芯片仍然延续了寒武纪产品一贯出色的通用性,可支持各类深度学习和经典机器学习算法,充分满足视觉、语音、自然语言处理、经典数据挖掘等领域复杂场景下(如大数据量、多任务、多模态、低延时、高通量)的云端智能处理需求。寒武纪终端和云端产品均原生支持寒武纪NeuWare软件工具链,可以方便地进行智能应用的开发,迁移和调优。

 

  陈天石表示,寒武纪创立的初衷就是要让全世界都能用上智能处理器。寒武纪将秉承学术界开放、协作的精神,以处理器IP授权的形式与全世界同行共享寒武纪最新的技术成果,使全球客户能够快速设计和生产具备人工智能处理能力的芯片产品;寒武纪在技术上贯彻“端云协作”的理念, MLU100云端芯片,不仅可独立完成各种复杂的云端智能任务,更可以与寒武纪1A/1H/1M系列终端处理器完美适配,让终端和云端在统一的智能生态基础上协同完成复杂的智能处理任务。

 

  寒武纪为什么要由端入云?陈天石表示,端侧的智能处理是非常重要的,因为端可以最快速的响应用户的需求,能以非常低的功耗、非常低的成本、非常小的延迟,帮助用户理解图像、视频、语音和文本。但是,云侧的智能处理可以把很多端的信息汇聚在一起。比如,在一个城市中有大量的摄像头,如果想要知道一个特定的物体在多个摄像头间的运动轨迹,就需要在云侧进行智能处理。 另外,终端的数据量有限,只能根据单个用户的数据对机器学习模型进行微调。而云可以看到大量用户的数据。因此,云端的智能处理在数据方面有其不可替代的巨大优势,可以利用海量数据,训练出非常强大的模型。

 

  “过去大部分芯片厂商都是主攻端(例如ARM),或者主攻云(例如Intel)。两者兼顾的很少,因为端云的任务生态都区别比较大。但是智能时代,我们认为这个局面会被全面打破,因为端和云的AI任务是一体的,编程和使用的生态也是一致的。作为一个通用机器学习芯片的厂商,寒武纪就是要端云结合,共同推动生态。”

 

  20186月,寒武纪完成了数亿美元的B轮融资,投后估值25亿美元。该轮融资中,领头方清一色国家队背景基金,由中国国有资本风险投资基金、国新启迪、国投创业、国新资本联合领投。新一轮跟投入场的则有中金资本、中信证券投资&金石投资、TCL资本,以及中科院科技成果转化基金。老股东元禾原点、国科投资、阿里创新投、联想创投、中科图灵等也不同程度继续追加了投资。

 

  “未来3年的路线图是占领10亿智能终端。3年后力争占据中国高性能智能芯片市场的30%份额;以及,3年后力争将寒武纪终端智能处理器集成进入超过10亿台设备。若是这两个目标都能实现,预计寒武纪,将在3年后初步支撑起中国主导的智能产业生态。”陈天石表示,芯片的成败,除了本身的效率之外,生态是非常关键的方面。没有配套的应用和软件,很难在市场上获得成功。“过去我们国内企业起步晚,一直是国际生态的跟随者。我们融入这个生态,享受这个红利,但我们并不能有多大的力量去改变这个生态。但是在智能时代,大家都在同样的起跑线上,要敢为天下先,敢于提出并共同构建全新的智能生态。光有寒武纪是不够的,寒武纪将与中国AI公司携手,致力共同构建中国全新的智能生态,在硬件的指令集和软件的开发平台上下功夫,在端云结合上下功夫,在商业协作上下功夫。只要国产 AI 指令集立住了,中国主导世界 AI 产业的机会可能就到来了。”

 

 

  寒武纪成了全球炙手可热的AI芯片厂商,在未来数年,全世界有数亿终端设备有望通过集成寒武纪处理器来获得强大的本地智能处理能力。希望以寒武纪为代表芯片创新企业,在全球芯片产业链中,争夺一定的话语权。

 

  值得一提的是,得益于国家政策的大力扶持,中国集成电路产业正处于一个快速发展阶。据国家统计局最新的数据显示,2017年中国集成电路产量达到1564.6亿块,同比增长18.7%,实现总营收4335.5亿元,同比增长20.1%。而到2020年,中国集成电路产业规模将超过9000亿元,年均复合增长率高达20.8%

 

  早在2014年,“集成电路”作为关键词首次出现在政府工作报告中。当年,国务院就印发了《国家集成电路产业发展推进纲要》,将集成电路产业发展上升为国家战略,并明确了“十三五”期间国内集成电路产业发展的重点及目标。在2018年的政府工作报告中,集成电路产业在“加快制造强国建设”重点发展的产业中被放在首要位置。