登录注册   忘记密码

“专用的通用芯”,深鉴科技听涛AI芯下半年问世

南京报道,“AI时代的发展由算法、数据和算力三大要素驱动。”深鉴科技芯片研发副总裁陈忠民在6月6日工信部芯动力人才计划举办的“‘名家芯思维’2018年人工智能芯片技术和应用研讨会”上进行了主题演讲,对AI通用处理器现状进行分析,并对高效率、低功耗的深鉴DPU等产品进行了介绍。


论坛期间,陈忠民先生接受了集微网的独家采访,表示深鉴听涛系列芯片预期今年下半年面世,并将提供工程样片给客户试用。

640.webp (43).jpg

目前,我国AI初创企业百家争鸣,每个初创企业的AI芯片都具有自己独特的体系结构和软件开发套件。深鉴科技即将推出的基于DPU技术的听涛系列AI芯片将有哪些优势呢?据陈忠民先生介绍,听涛系列AI芯片有通用性、效率高的特点。


听涛芯片不针对单一算法的ASIC实现,卷积神经网络算法都可在听涛硬件平台进行开发部署和运算,因此具有通用性。听涛芯片针在指令集、微架构、内存访问等诸多方面进行了优化设计,运转效率非常高。这样在相同功耗的情况下可实现更强大的算力,换而言之,即以更短的时间及更低的功耗实现了相同的算力。


陈忠民介绍到,深鉴科技专注于深度学习推理加速领域,产品包括IP、FPGA解决方案以及即将推出的芯片解决方案。陈忠民表示,深鉴的产品既是专用的,又是通用的。专用一面,深鉴瞄准的不是普适计算、不是各种各样的程序,而是神经网络计算一个方向;通用一面,在神经网络加速应用的前提下,深鉴打造的是一个通用架构,客户的神经网络算法都可以通过深鉴的工具链和编译器映射到其硬件平台上进行运算。鉴于此,不同的系统厂商或者算法开发厂商可以很容易将自身的算法移植到深鉴的系统上。深鉴科技的硬件产品相较于国内其它AI硬件公司的产品更具通用性。


随着摩尔定律的放缓与海量数据的爆发,巨头纷纷从通用计算平台转向定制化平台,微软借助FPGA发力、谷歌打造TPU平台。在追求更好性能的同时,不同应用场景对AI硬件提出不同的需求,主要为功耗、响应时间以及成本三方面,比如安防监控应用要求功耗小于5W,自动驾驶应用对实时性提出较高要求。


针对以上需求,深鉴科技采取优化计算引擎、优化访存系统、利用神经网络稀疏性的软硬件协同优化的技术方案。


据悉,深鉴科技一直在深度压缩技术优化算法上进行探索,其深度压缩工具DECENT融合了剪枝、量化等压缩技术,可以在保证算法精度的前提下,对计算模型进行压缩。神经网络编译器DNNC将训练后经过DECENT压缩的神经网络模型映射为DPU上高效执行的优化指令流,DNNC实现从算法到深鉴自定义机器代码的映射。因此,可降低系统访存带宽及功耗需求。


深鉴DPU采用与GPU相同的并行计算。GPU擅长海量的并行运算,比如在云端训练出一个复杂的深度神经网络模型,而此工作目前只有英伟达的GPU集群、Google TPU等胜任。据介绍,深鉴DPU主打轻量化并行架构,以8比特为主要的运算单元,可实现更低功耗、更快响应时间,更低功耗等同为客户带来更低成本。


据陈忠民介绍,深鉴主攻数据中心、安防监控、自动驾驶三大业务。数据中心业务是深鉴最初发力的方向,并有一些成功的合作案例。2017年后在安防监控与自动驾驶领域的业务上投入了更多的精力。

您的评论:

0

用户评价

  • 暂无评论