陈云霁
陈云霁 14岁上大学 24岁博士毕业 科大少年班。青年千人。
寒武纪
AI+芯片
寒武纪作为背靠中科院计算所和中科曙光的AI芯片独角兽公司,在芯片开发实力上处于国内领先地位。
目前1A芯片通过IP授权形式进入华为手机,并与中科曙光进行产业链互补。
- 2013 研发全球首个深度学习处理器架构DianNao,是智能芯片领域全球被引次数最多的论文
- 2014 研发全球首个多核深度学习处理器架构DaDianNao,是智能芯片全球被引次数第二的论文
- 2015 成功研制深度学习专用芯片寒武纪
- 2016 发布商用深度学习深度学习处理器IP产品 寒武纪1A,以及人工智能专用指令集Cambricon ISA
- 2017 寒武纪1A授权华为海思使用在Kiring 970手机芯片中
- 2017 发布低功耗场景视觉应用处理器1H8,通用性更高的1H16和智能驾驶新片1M
- 2018 发布针对服务器推理和训练的机器学习处理器 MLU100
从2017年起获得了中科院为期18个月的共计1000万元的专项资金支持。
目前寒武纪主要有三条产品线:
- IP授权,智能IP指令集可授权集成到手机、安防、可穿戴设备等终端芯片中,2016年全年拿到1亿元订单
- 在智能云服务器芯片领域,作为PCIe加速卡插在云服务器上,希望能布局进入人工智能训练和推理市场
- 开发面向家用智能服务机器人、智能驾驶、智能安防等领域的应用芯片
深度学习处理器
寒武纪做的是终端芯片?还是服务器芯片?
貌似
智能计算和普通计算的区别是什么?
符号主义不再流行
符号逻辑表示问题,求解逻辑表达式
行为主义
联结主义 - 人工神经网络
把神经细胞抽象成数字,把突出抽象成数字。
- 轴突 - 输出
- 树突 - 输入
- 交接地方叫 -
人工神经网络一千亿个突触,人脑有百万亿突触。数量级的差距。
人工神经元与生物神经元细胞的区别。
逐层抽象处理
现有硬件的缺陷,cpu gpu高能耗,低性能。alpha go 几千台。耗电几千瓦,李世乭只需要吃碗饭。
ai算法不错,落地困难,有硬件原因。cpu/gpu构建大规模神经网络,消耗很大。因此,
华为,阿里,曙光等手机都集成了寒武纪芯片。
- 拍照时识别东西。自动调节光圈,
- 本地机器翻译,不需要联网。牛逼,模型多大啊?很消耗内存吧。本地实时翻译。
存在的问题
传统的ASIC(将给定算法硬件化)的思路无法解决深度学习处理的需求。(并不难,比如把C的程序编程virlog程序)
- 有限规模的硬件 VS 任意规模的算法
- 电路做神经元 突触。芯片流片后都是固定的,多少神经元。
- 寒武纪采用的思路是:硬件神经元的虚拟化。通过时分复用,把有限规模的硬件虚拟成任意大规模的硬件
- 缺陷是,数据搬运
- 结构固定的硬件 VS 千变万化的算法
- 任务不同(下棋,语音,图像),结构差异(卷积、全连接等)。每天有大量新算法 VS 芯片研发周期长
- 寒武纪解决方案:抽象各种网络的通用算子,找不同算法,最耗时的部分。
- 主要运算:向量内积、向量距离、计数、非线性函数、排序
- 三个柱子:所有变量可概括为三类。
- 新算法来了,我们只需要对现有算子的组合
- 能耗受限的硬件 VS 精度优先的算法
- 手机上不要超过1w,不然手机发烫,电池续航也不行
- 服务器不超过300w,散热问题
- google大脑不考虑能耗,只考虑精度
- 做硬件和做算法的人就存在矛盾
- 寒武纪解决方案:稀疏神经网络处理器
- 很好。跳过90%的神经元。问题是多小能够稀疏化,比如0.01导致用户体验下降,那么就调高点。通过运行时,动态调节稀疏度。
华为mate10的深度学习处理器,比iphone10高效。牛逼呀
google大脑采用了1.6万个cpu核,如果提高1万倍,就可以融入手机。寒武纪目标提高性能1万倍。
寒武纪
- 是通用机器学习处理器,大部分机器学习算法都支持。 牛逼
7nm,流片成本1亿人民币。没有百万量就不能回本。
- 距离通用的gpu,tpu距离多远?往电脑上一插就能用的。
应用面没gpu广,比如gpu能处理图片,寒武纪不擅长图片。
性能功耗比: 寒武纪 > tpu > gpu
tpu做cnn效率高,做lstm效率低。
云端PCA加速卡,曙光出了单机20卡,基于寒武纪。
寒武纪芯片是否支持caffe tf pytorch?支持
陈天霁:华为芯片最领先,展讯、比特大陆(挖矿芯片,异军突起)
- 北大公开课 - 陈云霁