陈云霁报告 - 听课笔记

陈云霁 14岁上大学 24岁博士毕业 科大少年班。青年千人。

AI+芯片

深度学习处理器

寒武纪做的是终端芯片?还是服务器芯片?

貌似

智能计算和普通计算的区别是什么?

符号主义不再流行

符号逻辑表示问题,求解逻辑表达式

行为主义

联结主义 - 人工神经网络

把神经细胞抽象成数字,把突出抽象成数字。

  • 轴突 - 输出
  • 树突 - 输入
  • 交接地方叫 -

人工神经网络一千亿个突触,人脑有百万亿突触。数量级的差距。

人工神经元与生物神经元细胞的区别。

逐层抽象处理

#

现有硬件的缺陷,cpu gpu高能耗,低性能。alpha go 几千台。耗电几千瓦,李世乭只需要吃碗饭。

ai算法不错,落地困难,有硬件原因。cpu/gpu构建大规模神经网络,消耗很大。因此,

华为,阿里,曙光等手机都集成了寒武纪芯片。

  • 拍照时识别东西。自动调节光圈,
  • 本地机器翻译,不需要联网。牛逼,模型多大啊?很消耗内存吧。本地实时翻译。

存在的问题

传统的ASIC(将给定算法硬件化)的思路无法解决深度学习处理的需求。(并不难,比如把C的程序编程virlog程序)

  • 有限规模的硬件 VS 任意规模的算法
    • 电路做神经元 突触。芯片流片后都是固定的,多少神经元。
    • 寒武纪采用的思路是:硬件神经元的虚拟化。通过时分复用,把有限规模的硬件虚拟成任意大规模的硬件
      • 缺陷是,数据搬运
  • 结构固定的硬件 VS 千变万化的算法
    • 任务不同(下棋,语音,图像),结构差异(卷积、全连接等)。每天有大量新算法 VS 芯片研发周期长
    • 寒武纪解决方案:抽象各种网络的通用算子,找不同算法,最耗时的部分。
      • 主要运算:向量内积、向量距离、计数、非线性函数、排序
      • 三个柱子:所有变量可概括为三类。
      • 新算法来了,我们只需要对现有算子的组合
  • 能耗受限的硬件 VS 精度优先的算法
    • 手机上不要超过1w,不然手机发烫,电池续航也不行
    • 服务器不超过300w,散热问题
    • google大脑不考虑能耗,只考虑精度
    • 做硬件和做算法的人就存在矛盾
    • 寒武纪解决方案:稀疏神经网络处理器
      • 很好。跳过90%的神经元。问题是多小能够稀疏化,比如0.01导致用户体验下降,那么就调高点。通过运行时,动态调节稀疏度。

华为mate10的深度学习处理器,比iphone10高效。牛逼呀

google大脑采用了1.6万个cpu核,如果提高1万倍,就可以融入手机。寒武纪目标提高性能1万倍。

寒武纪

  • 是通用机器学习处理器,大部分机器学习算法都支持。 牛逼

7nm,流片成本1亿人民币。没有百万量就不能回本。

  • 距离通用的gpu,tpu距离多远?往电脑上一插就能用的。

应用面没gpu广,比如gpu能处理图片,寒武纪不擅长图片。

性能功耗比: 寒武纪 > tpu > gpu

tpu做cnn效率高,做lstm效率低。

云端PCA加速卡,曙光出了单机20卡,基于寒武纪。

寒武纪芯片是否支持caffe tf pytorch?支持

陈天霁:华为芯片最领先,展讯、比特大陆(挖矿芯片,异军突起)

#