登录注册   忘记密码

自动驾驶的大脑——芯片简介

汽车电子发展初期以分布式ECU架构为主流,芯片与传感器一一对应,后来,中心化架构DCU、MDC逐步成为了发展趋势;随着汽车辅助驾驶功能渗透率越来越高,传统CPU算力不足过去,在自动驾驶领域GPU取代CPU成为了主流方案;随着自动驾驶的定制化需求提升,未来定制化ASIC专用芯片将成为主流。


我们将按时间顺序梳理车载芯片的发展历程,探讨未来发展方向。


汽车电子发展初期以分布式ECU架构为主流,芯片与传感器一一对应,随着汽车电子化程度提升,传感器增多、线路复杂度增大,中心化架构DCU、MDC逐步成为了发展趋势;


随着汽车辅助驾驶功能渗透率越来越高,传统CPU算力不足,越来越难以满足处理视频、图片等非结构化数据的需求,而GPU同时处理大量简单计算任务的特性在自动驾驶领域取代CPU成为了主流方案;


从ADAS向自动驾驶进化的过程中,激光雷达点云数据以及大量传感器加入到系统中,需要接受、分析、处理的信号大量且复杂,定制化的ASIC芯片可在相对低水平的能耗下,将车载信息的数据处理速度提升更快,并且性能、能耗和大规模量产成本均显著优于GPU和FPGA,随着自动驾驶的定制化需求提升,定制化ASIC专用芯片将成为主流。


目前出货量最大的驾驶辅助芯片厂商Mobileye、Nvidia形成“双雄争霸”局面,Xilinx则在FPGA的路线上进军,Google、地平线、寒武纪向专用领域AI芯片发力,国内四维图新、全志科技、森国科(国科微)在自动驾驶芯片领域积极布局。


Mobileye的核心优势是 EyeQ 系列芯片,可以处理摄像头、雷达等多种传感器融合产生的大量数据,在L1-L3自动驾驶领域具有极大的话语权,目前出货量超过了2700万颗;


NVIDIA在GPU领域具有绝对的领导地位,芯片算力强大且具备很强的灵活性,但功耗高、成本高,AI机器学习并不太适合GPU的应用;


此外Google、地平线、寒武纪、四维图新等更聚焦在针对不同场景下的具体应用,芯片设计也开始增加硬件的深度学习设计,自动驾驶上AI的应用已经成为未来的趋势。


基于产业前景和潜在的巨大市场,给予行业买入评级,上市公司方面看好四维图新,建议关注地平线、寒武纪。

640.webp (45).jpg


车载芯片的发展趋势(CPU-GPU-FPGA-ASIC)

640.webp (47).jpg


过去—以CPU为核心的ECU

2.1 ECU的核心CPU


ECU(Electronic Control Unit)是电子控制单元,其工作过程为CPU接收到各个传感器的信号后转化为数据,并由Program区域的程序对Data区域的数据图表调用来进行数据处理,从而得出具体驱动数据,并通过CPU针脚传送到相关驱动芯片,驱动芯片再通过相应的周边电路产生驱动信号,用来驱动驱动器。即传感器信号——传感器数据——驱动数据——驱动信号这样一个完整工作流程。

640.webp (48).jpg


2.2 分布式架构向多域控制器发展


汽车电子发展的初期阶段,ECU主要是用于控制发动机工作,只有汽车发动机的排气管(氧传感器)、气缸(爆震传感器)、水温传感器等核心部件才会放置传感器,由于传感器数量较少,为保证传感器-ECU-控制器回路的稳定性, ECU与传感器一一对应的分布式架构是汽车电子的典型模式。


随着汽车电子化的发展,车载传感器数量越来越多,传感器与ECU一一对应使得车辆整体性下降,线路复杂性也急剧增加,此时DCU(域控制器)和MDC(多域控制器)等更强大的中心化架构逐步替代了分布式架构。

640.webp (49).jpg640.webp (50).jpg


现在—以GPU为核心的智能辅助驾驶芯片

人工智能的发展也带动了汽车智能化发展,过去的以CPU为核心的处理器越来越难以满足处理视频、图片等非结构化数据的需求,同时处理器也需要整合雷达、视频等多路数据,这些都对车载处理器的并行计算效率提出更高要求,而GPU同时处理大量简单计算任务的特性在自动驾驶领域取代CPU成为了主流方案。


3.1 GPU Vs. CPU

640.webp (51).jpg

3.2 GPU占据现阶段自动驾驶芯片主导地位


目前无论是尚未商业化生产的自动驾驶AI芯片还是已经可以量产使用的辅助驾驶芯片,由于自动驾驶算法还在快速更新迭代,对云端“训练”部分提出很高要求,既需要大规模的并行计算,又需要大数据的多线程计算,因此以GPU FPGA解决方案为核心;在终端的“推理”部分,核心需求是大量并行计算,从而以GPU为核心。

640.webp (53).jpg


3.3 相关公司


  3.3.1 NVIDIA


NVIDIA 在自动驾驶领域的成就正是得益于他们在 GPU 领域内的深耕,NVIDIA GPU专为并行计算而设计,适合深度学习任务,并且能够处理在深度学习中普遍存在的向量和矩阵操作。相对于Mobileye专注于视觉处理,NVIDIA 的方案重点在于融合不同传感器。


2016年,英伟达在Drive PX 2平台上推出了三款产品,分别是配备单GPU和单摄像头及雷达输入端口的Drive PX2 Autocruise(自动巡航)芯片(下图左上)、配备双GPU及多个摄像头及雷达输入端口的Drive PX2 AutoChauffeur(自动私人司机)芯片(右上)、配备多个GPU及多个摄像头及雷达输入端口的Drive PX2 Fully Autonomous Driving(全自动驾驶)芯片(下方)。

640.webp (54).jpg640.webp (55).jpg

以目前销售情况,Drive PX 2搭载上一代 Pascal 架构 GPU已经实现量产,并且已经搭载在 Tesla 的量产车型 Model S 以及 Model X 上。目前 PX 2 仍然是 NVIDIA 自动驾驶平台出货的主力,Tesla,Audi 和 ZF等对外公布 Drive PX 2 应用于量产车。


Xavier是 Drive PX 2 的进化版本,搭配了最新一代的 Volta 架构 GPU, 相较于Drive PX 2性能将提升近一倍,2017年年底量产。由于多家主机厂L3级别以上自动驾驶量产车的计划在 2020 年左右,而Xavier的量产计划将能和自动驾驶车的研发周期相互配合(一般 3 年左右),因此Xavier 的合作都是有量产车落地计划的。

640.webp (56).jpg

目前,L4及以上的市场基本上被NVIDIA垄断,CEO黄仁勋称全球有300余家自动驾驶研发机构使用Drive PX2。Drive PX 2单价为1.6万美金,功耗达425瓦,但目前没有达到车规,按功耗和成本看,只能小规模测试阶段使用。


  3.3.2 四维图新


 国内地图行业龙头,向ADAS和自动驾驶进军。公司成立于2002年,是国内首家获导航地图制作资质的企业(目前仅13家),为领先的数字地图内容、车联网与动态交通信息服务、基于位置的大数据垂直应用服务的提供商之一。其拳头业务——地图业务,以国内60%的份额稳居垄断地位。2017年以来,公司收购杰发科技、入股中寰卫星与禾多科技,“高精度地图 芯片 算法 软件”的自动驾驶产业链全方位布局雏形已现。


高精度地图:代表国内最高水平。公司以地图起家,目前国内高精度地图仅两家玩家(另一家为高德),公司深度绑定获得宝马、大众、奔驰、通用、沃尔沃、福特、上汽、丰田、日产、现代、标致等主流车企发展,占绝对优势。2017年公司实现支持L3级别(至少20个城市)的高精度地图,计划于2019年覆盖所有城市,并为L4的推出做准备。


 芯片:收购杰发科技布局汽车芯片。杰发科技(2017年3月完成收购)脱胎于联发科,主攻车载信息娱乐系统芯片。现阶段在国内后装市场市占率超70%,前装超30%(主要为吉利、丰田等车企),其车规级 IVI 芯片被多家国际主流零部件厂商采用,并计划推出AMP、MCU及TPMS(胎压 监测)芯片等新一代产品。公司通过收购杰发科技,具备了为车厂提供高性能汽车电子芯片的能力,打通从软件到硬件的关键性关卡,并与蔚来、威马、爱驰亿维等造车新势力公司达成了合作。

640.webp (57).jpg


  3.3.3 全志科技


在今年5月的CES Asia,全志科技发布首款车规级处理器T7,同时发布基于T7的多种智能座舱产品形态。T7是数字座舱车规(AEC-Q100)平台型处理器,支持Android、Linux、QNX系统,集成多路高清影像输入和输出,完美支持高清多媒体处理,内置的EVE视觉处理单元可提升辅助驾驶运算效率。

640.jpg

640.webp (58).jpg

未来—以ASIC为核心的自动驾驶芯片


4.1 ASIC vs GPU FPGA


GPU适用于单一指令的并行计算,而FPGA与之相反,适用于多指令,单数据流,常用于云端的“训练”阶段。此外与GPU对比,FPGA没有存取功能,因此速度更快,功耗低,但同时运算量不大。结合两者优势,形成GPU FPGA的解决方案。


FPGA和ASIC的区别主要在是否可以编程。FPGA客户可根据需求编程,改变用途,但量产成本较高,适用于应用场景较多的企业、军事等用户;而ASIC已经制作完成并且只搭载一种算法和形成一种用途,首次“开模”成本高,但量产成本低,适用于场景单一的消费电子、“挖矿”等客户。目前自动驾驶算法仍在快速更迭和进化,因此大多自动驾驶芯片使用GPU FPGA的解决方案。未来算法稳定后,ASIC将成为主流。

640.webp (59).jpg

计算能耗比,ASIC > FPGA > GPU > CPU,究其原因,ASIC和FPGA更接近底层IO,同时 FPGA有冗余晶体管和连线用于编程,而ASIC是固定算法最优化设计,因此ASIC能耗比最高。相比前两者,GPU和CPU屏蔽底层IO,降低了数据的迁移和运算效率,能耗比较高。同时GPU的逻辑和缓存功能简单,以并行计算为主,因此GPU能耗比又高于CPU。

640.webp (60).jpg


4.2 ASIC是未来自动驾驶芯片的核心和趋势


结合ASIC的优势,我们认为长远看自动驾驶的AI芯片会以ASIC为解决方案,主要有以下几个原因:

640.webp (61).jpg

综上ASIC专用芯片几乎是自动驾驶量产芯片唯一的解决方案。由于这种芯片仅支持单一算法,对芯片设计者在算法、IC设计上都提出很高要求。


以上并非下定论目前ASIC为核心的芯片一定比GPU FPGA的芯片强,由于目前自动驾驶算法还在快速迭代和升级过程中,过早以固有算法生产ASIC芯片长期来看不一定是最优选择。


4.3 相关公司


  4.3.1 Mobileye


Intel在 ADAS 处理器上的布局已经完善,包括 Mobileye 的 ADAS 视觉处理,利用 Altera 的 FPGA 处理,以及英特尔自身的至强等型号的处理器,可以形成自动驾驶整个硬件超级中央控制的解决方案。


Mobileye具有自主研发设计的芯片EyeQ系列,由意法半导体公司生产供应。现在已经量产的芯片型号有EyeQ1至EyeQ4,EyeQ5正在开发进行中,计划2020年面世,对标英伟达Drive PX Xavier,并透露EyeQ5的计算性能达到了24 TOPS,功耗为10瓦,芯片节能效率是Drive Xavier的2.4倍。英特尔自动驾驶系统将采用摄像头为先的方法设计,搭载两块EyeQ5系统芯片、一个英特尔凌动C3xx4处理器以及Mobileye软件,大规模应用于可扩展的L4/L5自动驾驶汽车。该系列已被奥迪、宝马、菲亚特、福特、通用等多家汽车制造商使用。

640.webp (62).jpg

此外通过行业访谈调研等途径了解到,Mobileye在L1-L3智能驾驶领域具有极大的话语权,对Tire1和OEM非常强势,其算法和芯片绑定,不允许更改。

640.webp (63).jpg


  4.3.2 寒武纪


5 月 3 日,寒武纪科技在2018 产品发布会上发布了多个IP 产品——采用 7nm 工艺的终端芯片 Cambricon 1M、云端智能芯片 MLU100 等。


其中寒武纪1M芯片是公司第三代IP产品,在TSMC7nm工艺下8位运算的效能比达5Tops/w(每瓦5万亿次运算),同时提供2Tops、4Tops、8Tops三种尺寸的处理器内核,以满足不同需求。1M还将支持CNN、RNN、SVM、k-NN等多种深度学习模型与机器学习算法的加速,能够完成视觉、语音、自然语言处理等任务。通过灵活配置1M处理器,可以实现多线和复杂自动驾驶任务的资源最大化利用。它还支持终端的训练,以此避免敏感数据的传输和实现更快的响应。


寒武纪首款云端智能芯片Cambricon MLU100同期发布,同时公布了在R-CNN算法下MLU100与英伟达Tesla V100(2017)和英伟达Tesla P4(2016)的对比,从参数上看,主要对标Tesla P4。


  4.3.3 地平线


2017年地平线发布了新一代自动驾驶芯片“征程”和配套软件平台方案“雨果”,同时还发布了应用于智能摄像头的“旭日”处理器。“征程”是一款专用AI芯片,采用地平线的第一代BPU架构,可实时处理1080p@30视频,每帧中可同时对200个目标进行检测、跟踪、识别,典型功耗1.5W,每帧延时小于30ms。CEO余凯介绍,地平线的芯片更聚焦在针对不同场景下的具体应用,相比于英伟达的方案,在功耗上低一个数量级,价格也会有更大的竞争力。


2018年亚洲CES,地平线宣布推出从L2到L4级别全系列的自动驾驶计算平台。

640.webp (64).jpg


  4.3.4 百度“昆仑”


7月4日百度AI开发者大会上,李彦宏发布了由百度自主研发的中国首款云端全功能AI芯片——“昆仑”。“昆仑”基于百度8年的AI加速器经验的研发,预计将于明年流片。


“昆仑”采用14nm 三星工艺,是业内设计算力最高的AI芯片(100 瓦功耗下提供260Tops性能);512GB/s内存带宽,由几万个小核心构成。


“昆仑”可高效地同时满足训练和推断的需求,除了常用深度学习算法等云端需求,还能适配诸如自然语言处理,大规模语音识别,自动驾驶,大规模推荐等具体终端场景的计算需求。此外可以支持paddle等多个深度学习框架,编程灵活度高。


  4.3.5 Google TPU


Google TPU于2016年在Google I / O上宣布,当时该公司表示TPU已在其数据中心内使用了一年以上。该芯片专为Google的Tensor Flow(一个符号数学库,用于神经网络等机器学习应用)框架而设计。


TPU与同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。

640.webp (65).jpg640.webp (66).jpg


   4.3.6 Xilinx & 深鉴科技


Xilinx赛灵思是FPGA的先行者和领导者,1984年,赛灵思发明了现场可编程门阵列FPGA,作为半定制化的ASIC,顺应了计算机需求更专业的趋势。FPGA 的好处是可编程以及带来的灵活配置,同时还可以提高整体系统性能,比单独开发芯片整个开发周期大为缩短,但缺点是价格、尺寸等因素。


在汽车ADAS和自动驾驶解决方案上,赛灵思的FPGA和SOC产品家族衍生出三个模块:


1.自动驾驶中央控制器Zynq UltraScale MPSoC

2.前置摄像头Zynq-7000 / Zynq UltraScale MPSoC

3.多传感器融合系统Zynq UltraScale MPSoC

640.webp (67).jpg

深鉴科技成立于 2016 年,其创始团队有着深厚的清华背景,专注于神经网络剪枝、深度压缩技术及系统级优化。2018年7月17日,赛灵思宣布收购深鉴科技。自成立以来,深鉴科技就一直基于赛灵思的技术平台开发机器学习解决方案,推出的两个用于深度学习处理器的底层架构—亚里士多德架构和笛卡尔架构的 DPU 产品,都是基于赛灵思 FPGA 器件。

640.webp (68).jpg

640.webp (69).jpg

2018年6月,深鉴科技宣布进军自动驾驶领域,自主研发的ADAS辅助驾驶系统——DPhiAuto,目前已获得日本与欧洲一线车企厂商和Tier 1的订单,即将实现量产。


DPhiAuto,基于FPGA,是面向高级辅助驾驶和自动驾驶的嵌入式AI计算平台, 可提供车辆检测、行人检测、车道线检测、语义分割、交通标志识别、可行驶区域检测等深度学习算法功能,是一套针对计算机视觉环境感知的软硬件协同产品。功耗方面,可以在10-20W的功耗范围内,实现等效性能,能效比指标高于目前主流的CPU、GPU方案。

640.webp (70).jpg

您的评论:

0

用户评价

  • 暂无评论