人工智能要崛起，从芯片设计开始（二）

2017-8-18 09:57| 发布者: admin| 查看: 843| 评论: 0|来自: 互联网

摘要: 　　Intel　　作为PC时代的绝对霸主，Intel已经错过了移动互联网时代，在已经到来的AI时代，也失掉了先机，但它并没有放弃，而是积极布局，准备逆袭。在云端，收购Altera之后推出了基于FPGA的专用深度学习加速卡，可 ...

　　Intel

　　作为PC时代的绝对霸主，Intel已经错过了移动互联网时代，在已经到来的AI时代，也失掉了先机，但它并没有放弃，而是积极布局，准备逆袭。在云端，收购Altera之后推出了基于FPGA的专用深度学习加速卡，可以在云端使用；另外，收购Nervana，目标也是在云端。在移动端，则是收购了Movidius。下面先对Nervana进行介绍，对Movidius的介绍放在后面移动端。

　　Nervana创立于2014年，位于圣地亚哥的初创公司Nervana Systems已经从20家不同的投资机构那里获得了2440万美元资金，而其中一家是十分受人尊敬的德丰杰风险投资公司（Draper Fisher Jurvetson，DFJ）。The Nervana Engine（将于2017年问世）是一个为深度学习专门定做和优化的ASIC芯片。这个方案的实现得益于一项叫做High Bandwidth Memory的新型内存技术，同时拥有高容量和高速度，提供32GB的片上储存和8TB每秒的内存访问速度。该公司目前提供一个人工智能服务“in the cloud”，他们声称这是世界上最快的且目前已被金融服务机构、医疗保健提供者和政府机构所使用的服务，他们的新型芯片将会保证Nervana云平台在未来的几年内仍保持最快的速度。
IBM

　　IBM很早以前就发布过watson，早就投入了很多的实际应用中去。除此之外，还启动了对类人脑芯片的研发，那就是TrueNorth。TrueNorth是IBM参与DARPA的研究项目SyNapse的最新成果。SyNapse全称是Systems of Neuromorphic AdapTIve PlasTIc Scalable Electronics（自适应可塑可伸缩电子神经系统，而SyNapse正好是突触的意思），其终极目标是开发出打破冯•诺依曼体系的硬件。

　　这种芯片把数字处理器当作神经元，把内存作为突触，跟传统冯诺依曼结构不一样，它的内存、CPU和通信部件是完全集成在一起。因此信息的处理完全在本地进行，而且由于本地处理的数据量并不大，传统计算机内存与CPU之间的瓶颈不复存在了。同时神经元之间可以方便快捷地相互沟通，只要接收到其他神经元发过来的脉冲（动作电位），这些神经元就会同时做动作。

　　2011年的时候，IBM首先推出了单核含256 个神经元，256&TImes;256 个突触和 256 个轴突的芯片原型。当时的原型已经可以处理像玩Pong游戏这样复杂的任务。不过相对来说还是比较简单，从规模上来说，这样的单核脑容量仅相当于虫脑的水平。不过，经过3年的努力，IBM终于在复杂性和使用性方面取得了突破。4096个内核，100万个“神经元”、2.56亿个“突触”集成在直径只有几厘米的方寸（是2011年原型大小的1/16）之间，而且能耗只有不到70毫瓦。

　　这样的芯片能够做什么事情呢？IBM研究小组曾经利用做过DARPA 的NeoVision2 Tower数据集做过演示。它能够实时识别出用30帧每秒的正常速度拍摄自斯坦福大学胡佛塔的十字路口视频中的人、自行车、公交车、卡车等，准确率达到了80%。相比之下，一台笔记本编程完成同样的任务用时要慢100倍，能耗却是IBM芯片的1万倍。

　　寒武纪

　　Google将TPU加速器芯片嵌入电路板中，利用已有的硬盘PCI-E接口接入数据中心服务器中。

　　终于有中国公司了，中文名“寒武纪”，是北京中科寒武纪科技有限公司的简称。这家公司有中科院背景，面向深度学习等人工智能关键技术进行专用芯片的研发，可用于云服务器和智能终端上的图像识别、语音识别、人脸识别等应用。寒武纪深度学习处理器采用的指令集DianNaoYu由中国科学院计算技术研究所陈云霁、陈天石课题组提出。模拟实验表明，采用DianNaoYu指令集的寒武纪深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升。

　　目前，寒武纪系列已包含三种原型处理器结构：

　　寒武纪1号（英文名DianNao，面向神经网络的原型处理器结构）；

　　寒武纪2号（英文名DaDianNao，面向大规模神经网络）；

　　寒武纪3号（英文名PuDianNao，面向多种机器学习算法）。

　　2016年推出的寒武纪1A处理器（Cambricon-1A）是世界首款商用深度学习专用处理器，面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备
CEVA，CEVA是专注于DSP的IP供应商，拥有为数众多的产品线。其中，图像和计算机视觉 DSP 产品 CEVA-XM4 是第一个支持深度学习的可编程 DSP，而其发布的新一代型号 CEVA-XM6，具有更优的性能、更强大的计算能力，以及更低的耗能。

　　XM6 的两大新硬件功能，将帮助大多数图像处理和机器学习算法。第一个是分散-聚集，或者说是阅读一个周期中，L1 缓存到向量寄存器中的 32 地址值的能力。CDNN2 编译工具识别串行代码加载，并实现矢量化来允许这一功能，当所需的数据通过记忆结构分布时，分散-聚集提高了数据加载时间。由于 XM6 是可配置的 IP，L1 数据储存的大小/相关性在硅设计水平是可调节的，CEVA 表示，这项功能对于任意尺寸的 L1 都有效。此级用于处理的向量寄存器是宽度为 8 的 VLIW 实现器，这样的配置才能满足要求。

　　第二功能称为“滑动-窗口”数据处理，这项视觉处理的特定技术已被 CEVA 申请专利。有许多方法可以处理过程或智能中的图像，通常算法将立刻使用平台所需一块或大片像素。对于智能部分，这些块的数量将重叠，导致不同区域的图像被不同的计算区域重用。CEVA 的方法是保留这些数据，从而使下一步分析所需信息量更少。

　　CEVA 指出，智能手机、汽车、安全和商业应用，如无人机、自动化将是主要目标

　　ARM

　　ARM刚推出全新芯片架构DynamIQ，通过这项技术，AI的性能有望在未来三到五年内提升50倍。ARM的新CPU架构将会通过为不同部分配置软件的方式将多个处理核心集聚在一起，这其中包括一个专门为AI算法设计的处理器。芯片厂商将可以为新处理器配置最多8个核心。同时为了能让主流AI在自己的处理器上更好地运行，ARM还将放出一系列软件库。

　　人工智能要崛起，从芯片设计开始！

　　DynamIQ是在ARM上一代革新架构big.LITTLE基础上的一次演进，这种架构能够对同一运算设备中的大小两个核进行适当配置，以减少电池消耗。目前big.LITTLE架构已经被应用到了几乎所有智能手机的芯片上，包括用于安卓系统的高通骁龙处理器以及苹果最新一代的A10芯片。

　　接下来ARM推出的每一款Cortex-A系列芯片都将采用这种新技术。ARM称，与在现有芯片架构上开发出的处理器（即Cortex-A73）相比，基于DynamIQ架构开发的全新处理器有望在三到五年内使人工智能的表现增强50倍。

　　人工智能时代已经来临，在这个史无前例的巨大浪潮面前，有哪些公司能脱颖而出，成为新一代弄潮儿？让我们拭目以待。

鲜花

握手

雷人

路过

鸡蛋

收藏分享邀请

上一篇：人工智能要崛起，从芯片设计开始！下一篇：详解：EMC技术在单片机系统中的应用

人工智能要崛起，从芯片设计开始（二）

最新评论

相关分类