identity mapping in resnet

$$
y=H(x,W_H)+x
$$

Highway

所谓Highway网络，无非就是输入某一层网络的数据一部分经过非线性变换，另一部分直接从该网络跨过去不做任何转换，就像走在高速公路上一样。
而多少的数据需要非线性变换，多少的数据可以直接跨过去，是由一个权值矩阵和输入数据共同决定的。

$$
y=H(x,W_H)\bigodot T(x,W_T)+x\bigodot C(x,W_C)
$$

highway就是在resnet的基础上增加了两个gate。即$T$: transform gate，$C$: carry gate。

为了简便起见，有时候令C=1−T，1 代表了维度和T 一样长的向量。

如果我们想更改x的维度从A变成B的话，一种方法是采用zero-padding和下采样的方法，或者是引入一个维度为A*B的变换矩阵，使每次都乘上这个矩阵。

主要解决的是多层深度神经网络的训练收敛问题，即使层数很多也可以使用简单的方法比方说 backpropogation来进行训练，保证合理的迭代范围内收敛，而传统的网络是很难保证收敛的。

motivation

A highway layer can smoothly vary its behavior between that of a plain layer and that of a layer which simply passes its inputs through.

也就是说Highway也就是让输入数据的一部分变换，另一部分直接通过，相当于整体上来讲在这两者的效果中选了一个均衡。

从广义的角度来说，Highway更像是一种思想，它不但可以用在全连接网络中，也可以用在卷积神经网络中，原文里说：“Convolutional highway layers are constructed similar to fully connected layers. Weight-sharing and local receptive fields are utilized for both H and T transforms. We use zero-padding to ensure that the block state and transform gate feature maps are the same size as the input.”。

其实深度残差网络和Highway网络这两种网络结构都能够让一部分的数据可以跳过某些变换层，而直接到后面的层中去，只不过Highway网络需要一个权值来控制每次直接通过的数据量，而深度残差网络就直接让一部分数据通到了后面。从大量的实验中，我感觉这两种网络只有在很深的场景中才能发挥出“威力”，如果本身网络层数较浅，勉强使用这两种结构是很难得到好的结果的。

highway network很大程度借鉴了LSTM的长期短期记忆的门机制的一些思想，使得网络在很深都可以学习！

对比

ResNet可以被看作是Highway Network的一个特例。

ResNet并不是第一个利用shortcut connection的，Highway Network[5]引入了“gated shortcut connection”，其中带参数的gate控制了shortcut中可通过的信息量。类似的做法也存在于LSTM[6]单元里，在LSTM单元中也有一个forget gate来控制着流入下一阶段的信息量。因此，ResNet可以被看作是Highway Network的一个特例。然而实验结果显示，Highway Network的表现并不比ResNet要出色。这个结果似乎有些奇怪，因为Highway Network的解空间（solution space）中包含了ResNet，所以它的性能表现按理来说应该要比ResNet好的。这就表明保持这些“梯度高速路”的畅通可能比追求更大的解空间更重要。

照着这一想法，文章的作者们进一步完善了残差块，并且提出了一个残差块的pre-activation变体，梯度可以在这个变体中通过shortcut无阻碍地传播到前面的任何一层。实际上，利用[2]中的原始残差块，训练后1201层ResNet的性能比110层的ResNet的性能要差。

参考

https://www.jianshu.com/p/e96b473926ed
https://blog.csdn.net/guoyuhaoaaa/article/details/54093913