登录注册   忘记密码

人工智能芯片在数据中心的使用

对于深度学习加速器,即将迎来预期250亿美元的市场。数据中心现正在实验室中测试多个芯片,并期望明年能部署一些芯片,可能会针对不同的工作选择多个加速器。

 

微软

微软Azure小组的杰出硅工程师Marc Tremblay表示,一个明确的问题是“没有通用编译器这样的东西——这些芯片架构太不同了。” Azure小组运营着超过一百万台服务器。这家数据中心巨头正在开发自己的时名为Lotus的运行环境将AI图形映射为硬件语言。上周,Facebook宣布支持其自己称为Glow的方法,是一种通用的深度学习编译器。

 

数据中心渴望在人工智能性能方面获得超越Nvidia的Volta的重大飞跃,后者是当前训练加速器的王者。Tremblay在一个主题演讲中说:“一些训练工作需要在GPU上运行22天,一个需要两个多月的时间,但我们想在午餐时找到答案”。一个语音识别应用程序使用4800万个参数。研究人员正致力于研究使用非对称连接来生成自己模型的神经网络,这将计算要求提升到新的水平。


Tremblay说:“我们需要10到50倍的带宽来支持更多复杂的神经网络。”对于一个16芯片系统来说,今天的GPU价格昂贵,耗电量大约为40万美元,即使是开关芯片也需要热沉。在芯片集群上进行线性扩展时“有时需要我们的工程师做不想做的工作。”目前,微软正在使用V100和上一代GPU,并“关注”Nvidia上周宣布的T4芯片。Tremblay指出,T4看起来很有希望同时运行多个神经网络。

 

此外,微软和其他数据中心巨头在他们的x86 CPU组上运行了许多深度学习工作。Tremblay说:“对于我们来说,它通常是免费的,因为x86芯片并不是一直在运行。”并指出通过软件优化,如英特尔Cascade Lake中的新AI指令,将推动持续多年的发展。

 

展望未来,数据中心可能会采用多个加速器,每个加速器都匹配到最适合的特定工作。Tremblay总结了各种语音、视觉、语言、搜索和其他AI应用程序,每个应用程序都有自己的延迟和吞吐量要求。

 TIM截图20181023141001.png

Tremblay总结了AI芯片的图景(图片来源:微软)

 

一些应用程序使用多达20种类型的神经网络,这使得跨模型的灵活性成为一项要求。它们还包括用于对延迟敏感的Bing搜索的单个批处理,到其他应用程序的100多个批处理。因此,Tremblay根据所测试的稳健数字、灵活性来分配芯片。

 

在这些令人烦恼的原因中,“初创公司忘记了安全和虚拟化等问题,”他说。“他们不需要在第1天拥有所有东西,但最终必须进入我们拥有的成熟CPU和GPU的特性。”

 

总体而言,在数据中心人工智能的好消息是“我们还有很长的路要走,但进展令人难以置信......有很多创新即将到来,人工智能的未来也很光明,”他总结道。

 

Wave Computing

Graphcore、Habana、ThinCI和Wave Computing是50家供应商中的一小部分,他们的芯片正由客户在其实验室中进行测试。

 

Wave Computing在初创公司中脱颖而出,提供其架构的详细信息。与竞争对手Cerebras一样,它将销售完整系统,因为目标领域的性能提升需要超越处理器的发展。

 

具体来说,Wave目前的16nm处理器使用HMC内存上的15-GByte/s端口来连接板上的四个芯片和系统上的四个板。内存及其互连是通过其处理器集群进行流水图形处理的关键,避免了处理器通过相对较窄的PCI Express总线产生的延迟。

 

Wave选择HMC部分是出于权宜之计。该创业公司与HMC供应商Micron建立了战略联盟,竞争对手的HBM内存似乎过于复杂,且对于一家规模相对较小的初创公司而言风险较大。

 

在金融,视频点播和制造等市场中约有六家公司正在测试面向IT部门使用的系统。为了服务大型数据中心,如微软,该公司需要一个全机架大小的系统,该系统将基于使用HBM的下一代7-nm处理器。

 TIM截图20181023141058.png

最初的Wave系统使用HMC连接四个四处理器板。(图片来源:Wave Computing)

 

该创业公司仍在研究如何将串行HMC转换为并行HBM内存作为其关键互连。虽然HMC支持多个端口,但HBM通常配置一个快速端口,基于其每个1024个I/O管脚所提供的2.4Gbits/s,该端口的运行速率可高达307Gbytes/s。

 

对最终用户的关注迫使Wave发展服务业。它在菲律宾成立了一个20人的团队,作为中心的一部分,将帮助IT部门学习如何开发自己的深度学习模型,这是大数据中心的数据科学家自己做的事情。

 

有趣的是,Wave成立于2009年——深度学习爆发前的三年,是Tallwood 风险资本投资的团队。当时,它的目标是建立一个能够使用高级语言编程,比FPGA更高效,与Tabula和Achronix展开竞争。

 

作为深度学习处理器,Wave的方法允许图形的元素经过电路并执行。Wave联合创始人兼首席技术官Chris Nichol表示,指令可以为手头的任务设置最佳精确格式,并且电路在完成执行后会回到睡眠状态。

 

Graphcore

Graphcore简要介绍了其236亿晶体管架构Colossus,旨在将整个神经网络模型保存在其300 Mbytes的片上存储器中。该创业公司声称它可以在其1216个核上并行处理7000个程序,每个核心可支持100个GFlops。

 

Colossus支持集合的内部存储器总带宽为30TBytes/s。在外部,它通过80通道支持芯片到芯片的2.5TBits/s传输。其中两个芯片采用单个PCIe Gen4 x16卡封装,在I/O中提供31.5 GByte/s的速率。

 

Cerebras

Cerebras首席执行官Andrew Feldman拒绝描述公司的架构或时间表,但他表示提供完整系统。“如果你使用PCI卡,就会受到功率、散热和I/O的限制。”提供完整系统不会产生扩展障碍。Cerebras可能会使用为谷歌或微软构建服务器机架的合同制造商。Feldman说:“我们使用这个编码就可以获得10亿美元。”,需要建立销售队伍。新硬件将为新的AI工作铺平道路,从而推动需求。至于他的产品,他说将通过管理神经网络稀疏性来获得1000倍的性能提升。他们不会使用任何奇特的技术。然而,它们确实需要一种新颖的核、存储器架构、编译器、结构和技术来冷却和提供功率。

 

SambaNova Systems

首次亮相的最新创业公司之一SambaNova Systems提供了最少的细节。与Cerebras,Graphcore和Wave一样,它由一群经验丰富的建筑师组成,他们将基于斯坦福大学Spatial编译器与数据流芯片结合在一起。

您的评论:

0

用户评价

  • 暂无评论