登录注册   忘记密码

AI芯片爆发,GPU、FPGA还是专用ASIC?

以GPU为代表的图形处理器确实推动了第一波的深度学习的浪潮,现在专用AI芯片正推动第二波浪潮。包括苹果(Apple)、华为(Huawei)、Intel、NVIDIA、Google和一些新创公司都相继推出了基于神经网络算法的专用ASIC芯片。

TIM截图20180306110535.jpg

如果你认为苹果和华为在手机芯片中搭载“AI”单元模组仅仅是为了寻找新的卖点那就错了。云端到终端确实能带来真正的好处,比如功耗和成本的降低,效率的提升等。华为麒麟芯片市场总监周晨认为,在云端进行AI运算的方式,如增加模型的大小和层数并不是真正的方向。AI开始从云端往终端迁移会把运算量和网络大小减小100倍,也会减少对网络带宽的需求。

 

「随着算力的提升和算法的优化,最后会形成一个很好的甜蜜点;」华为麒麟芯片市场总监周晨表示:「终端的性能现在是瓶颈,大批公司虽然水准参差不齐,但是都在往芯片端走,如何解决兼容性问题,如何让算法更流畅,成为大家关注的焦点。」

 

周晨表示,从2017年的资料来看,AI的运算中云端占了95%,终端只占5%,这两点的巨大差距会带来很大的成长空间。对于华为麒麟,因为是一家硬件平台公司,自然更偏向用硬件的方式来做,提供通用性的加速器,从而满足大部分的算法需求。目前跑算法大概有两种方式:一种是用CPU纯跑软件,另一种是通过硬件加速器来固定算法。此外,从AI运算的需求本身来看,大部分是运算密度要求很高的行为,也需要用非常高效的硬件方式去做。周晨认为,从芯片的发展历史来看,很多算法一旦稳定成熟下来就会固定用硬件来做。

 

对于华为的下一代AI芯片,周晨没有透露太具体的规格或参数,但他表示,后面两代的产品定义经明确,基本上有几个方向不会变:第一是算力会持续上涨;第二是专注在通用的AI运算平台上,持续将AI运算能力开放给更多开发者;第三是AI芯片的工艺会越来越先进,更新速度可能会比摩尔定律还要快。「当我们把算力释放出去以后,可能会有一大票应用能力提升。这会产生正向回圈,会有越来越多的开发者做一些新的好的体验;」周晨表示,AI本身是一种技术,但是未来的价值会体现在有多少开发者来开发出相关的应用。

 

赛灵思(Xilinx)全球销售和市场部亚太及日本地区高级总监周海天认为,虽然目前有很多的芯片架构都针对AI,但在AI发展初期的一些应用上,在还没找到最优的算法和性能的时候,绝对是FPGA更合适:「尤其是未来两、三年,当然不是说我们现有的产品拿出去就可以了,我们也在不断的专注这一块。」

 

周海天表示,赛灵思目前也在不断的做一些介面、通用协定的固化,再引入SoC,固化存储驱动,随着AI的发展和成熟,一些关键的模组也可以在FPGA产品里固化,可以推出相应的FPGA base;他认为,其实不同的芯片架构都有一定的优势,现在的处理器产品可以很容易开发处理器平台,处理器也有它的瓶颈,所以现在GPU过去几年是非常成功的,但是也碰到一些功耗和挑战。但是GPU的优势也是很好的产品开发工具和程式库。

 

但是在FPGA上,除了可编程设计的优势,随着算法的演进,将一些硬件架构做一些优化和改变,而不用等硬件变化;周海天表示:「再加上过去我们开发的时候,要从原始代码去起步,这是我们这两年的改变,我们不断提到硬件平台还有库和高端的设计语言,也就是跟GPU一样的开发流程。」

 

周海天指出,针对一些TPU和ASIC,这些专门的AI芯片好处是更加的集中,但也有个缺点,就是它需要非常成熟的算法,因此,AI芯片往往是固化了两年前的算法。而随着AI的演进,尤其是算法的发展和变化是非常快的。

 

周海天表示,随着AI应用的发展, 最近几年AI算法正在不断的演进,硬件架构也在随之不断的变化。「两三年前我们认为要用浮点运算,在神经网络中达到一定比例。随着算法的成熟,我们发现不一定要用浮点运算,用定点运算也可以。」他认为,这种改变可能就一年的时间,而FPGA非常容易快速的回应算法的改变。

 

深鉴科技CEO姚颂认为,从AI芯片所处的发展阶段来看, CPU、GPU和FPGA等通用芯片是目前AI领域的主要芯片,而针对神经网络算法的专用芯片ASIC也正在被众多AI公司陆续推出,并且由于专用芯片能够更好的根据场景及行业进行定向优化,所以目前有种趋势:专用芯片有望在今后数年内取代通用芯片所不能完全覆盖到的领域,而成为AI芯片的主力。同时随着大资料、算法和算力的不断反覆运算演进,市场对智能硬件(芯片)的要求也会越来越高,对应的研发成本会面临新的挑战。

 

Intel执行长科再奇(Brian Krzanich)认为,当前的AI革命实际上是一种计算的革新。自从集成电路问世以来,Intel一直是突破计算限制的核心力量。

 

「我们的产品路线图让我们正在超越去年设定的目标:即到2020年,深度学习训练的性能可以提高100倍。Arm战略联盟业务发展总监金勇斌认为,针对终端的芯片设计有几个特点:一是功耗不能大,二是硬件的效率要非常高,三是运算模型要针对终端特点来定制化。在以往GPU在AI计算领域取得了非常好的成绩,目前各大厂商都在做各种架构的专用加速器,有的基于DSP、有的基于GPU。

 

金勇斌认为,GPU的功耗比较高,因此他不认为GPU能够解决终端的性能和成本平衡问题。包括DSP、FPGA都有各自的优点和缺点。从灵活性和性能的平衡来看,在AI应用场景中,比较通用的神经网络以及卷积运算,特定的硬件加速器优势会比DSP和GPU性能更高。「我们认为未来一个相对通用算法的硬件加速器加上CPU的架构会越来越流行;」 金勇斌表示,CPU比较灵活但效率不高,加速器效率高但不够灵活。因此可以针对不同的特点采用不同的硬件,比如深度学习的卷积运算需求相对固定,就可以采用硬件加速器;而很多针对终端的应用算法需要高度的可灵活程式设计性,就可以采用CPU。

 

CEVA公司视觉产品市场主管Liran Bar也认为,CPU或GPU这样的通用技术相比专用AI处理器来说性能更低却功耗更高,因此不再是能有效地满足AI要求的可行技术。

您的评论:

0

用户评价

  • 暂无评论