【深度学习】基础篇

基础概念

  • NN
  • 前馈网络: 前馈是相对反馈(backward),带反馈的网络就构成了环,即有环网络。通常所用到的网络都是前馈网络。
  • 感知机
  • 多层感知机
  • autoencoder
  • RBM

答疑

梯度爆炸 梯度消失

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Q: 梯度消失就是0.9^30≈0.04?梯度爆炸就是1.1的n次方?
怎样不消失,不爆炸呢?就是1的n次方吗?
A: 是的,ReLU就是这么干的

Q: 那sigmoid和tanh,是不是就彻底被淘汰了?
A: 网络不深可以用,具体情况具体分析
再说了batch normalization的作用对于mitigate这种情况效果不错

Q: 除了ReLU,还有什么能防止梯度爆炸、梯度消失的策略?
A: 还有一些特殊的网络结果诸如resnet LSTM,也可以防止梯度小时或者爆炸,但不能根本解决

Q: 为什么BN能起到一定的作用?
A: 避免了梯度非常小,或者非常大。将梯度归一化到一个固定范围,相当于他说的消除了柔性
通过mini-batch来对相应的activation做规范化操作,使得结果(输出信号各个维度)的均值为0,方差为1

Q: 为什么resnet LSTM,能防止梯度爆炸 梯度消失?
A: 因为避免了连乘。

Q: 可以理解bn是集中到标准正态分布范围内,但是网络里用的ReLU抑制负数所以有损失吗?
A:

Q: RNN 为什么会出现 Gradient Vanish?LSTM为什么能防止梯度消失?

激活函数 (activation function)

VGG ResNet都采用ReLU