3.循环神经网络

三种循环神经网络：

RNN

关于 RNN 计算的几幅图

前向传播计算图，当前时间 $h_{t}$ 是由 $X_{t}$ 和上一时间 $h_{t - 1}$ 通过乘以矩阵 $U$ 和 $W$ 实现的，两部分分别是一个全连接神经网络。

h_{t} = f (W h_{t - 1} + U X_{t}), O_{t} = g (h_{t} V)

所有的权重 $U, V, W$ 都是共享的

计算前三项：

h_{1} = f (W h_{0} + U X_{0})

h_{2} = f (W h_{1} + U X_{1}) = f (W \cdot f (W h_{0} + U X_{0}) + U X_{1})

h_{3} = f (W h_{2} + U X_{2}) = f (W \cdot f (W h_{1} + U X_{1}) + U X_{2}) = f (W \cdot f (W \cdot f (W \cdot h_{0} + U X_{0}) + U X_{1}) + U X_{2})

h_{t} = f (h_{t - 1} \cdot w + x_{t} \cdot u) = f_{t}

展开 $t - 1$ 项

\frac{\partial h _{t}}{\partial w} = f_{t}^{'} \cdot (h_{t - 1} + w \cdot \frac{\partial h _{t - 1}}{\partial w})

展开到 $t - 2$ 项

\frac{\partial h _{t}}{\partial w} = f_{t}^{'} [h_{t - 1} + w \cdot (f_{t - 1}^{'} (h_{t - 2} + w \cdot \frac{\partial h _{t - 2}}{\partial w}))] = f_{t}^{'} h_{t - 1} + f_{t}^{'} w f_{t - 1}^{'} h_{t - 2} + f_{t}^{'} w^{2} f_{t - 1}^{'} \cdot \frac{\partial h _{t - 2}}{\partial w}

展开到 $t - k$ 项

\frac{\partial h _{t}}{\partial w} = i = 1 \sum k (h_{t - i} \cdot w^{i - 1} \cdot j = 0 \prod i - 1 f^{'} (z_{t - j})) + w^{k} (j = 0 \prod k - 1 f^{'} (z_{t - j})) \cdot \frac{\partial h _{t - k}}{\partial w}

出现 $f^{'}$ 导数连乘，其中 $f^{'} \in (0, \frac{1}{4}]$ ，如果 $w > 4$ 导致梯度爆炸，如果 $w < 4$ 导致梯度消失

类似

n \to \infty lim x^{n} = ⎩ ⎨ ⎧ \infty 10 x > 1 x = 1 x < 1

展开到 $t - 2$ 项

\frac{\partial L _{t}}{\partial w} = \frac{\partial L _{t}}{\partial O _{t}} \cdot \frac{\partial O _{t}}{\partial h _{t}} (\frac{\partial h _{t}}{\partial w} + \frac{\partial h _{t}}{\partial h _{t - 1}} \cdot \frac{\partial h _{t - 1}}{\partial w} + \frac{\partial h _{t}}{\partial h _{t - 1}} \cdot \frac{\partial h _{t - 1}}{\partial h _{t - 2}} \cdot \frac{\partial h _{t - 2}}{\partial w})

代入

\frac{\partial h _{t}}{\partial w} = f_{t}^{'} \cdot h_{t - 1}, \frac{\partial h _{t}}{\partial h _{t - 1}} = f_{t}^{'} \cdot w

得：

\frac{\partial L _{t}}{\partial w} = \frac{\partial L _{t}}{\partial O _{t}} \cdot \frac{\partial O _{t}}{\partial h _{t}} (f_{t}^{'} \cdot h_{t - 1} + f_{t}^{'} \cdot w \cdot f_{t - 1}^{'} \cdot h_{t - 2} + f_{t}^{'} \cdot w \cdot f_{t - 1}^{'} \cdot w \cdot f_{t - 2}^{'} \cdot h_{t - 3})

通式：

\frac{\partial L _{t}}{\partial w} = i = 0 \sum t \frac{\partial L _{t}}{\partial O _{t}} \cdot \frac{\partial O _{t}}{\partial h _{t}} \cdot \frac{\partial h _{t}}{\partial h _{i}} \cdot \frac{\partial h _{i}}{\partial w}

\frac{\partial h _{t}}{\partial h _{i}} = \frac{\partial h _{t}}{\partial h _{t - 1}} \cdot \frac{\partial h _{t - 1}}{\partial h _{t - 2}} \dots \frac{\partial h _{i + 1}}{\partial h _{i}} = k = i \prod t - 1 \frac{\partial h _{k + 1}}{\partial h _{k}}

\frac{\partial h _{k}}{\partial h _{k - 1}} = f_{k}^{'} \cdot w, \frac{\partial h _{k}}{\partial w} = f_{k}^{'} h_{k - 1}

遗忘门（剔除无用信息）：

f_{t} = σ (W_{f} \cdot [h_{t - 1}, X_{t}]^{T} + b_{f})

输入门：

i_{t} = σ (W_{i} \cdot [h_{t - 1}, X_{t}]^{T} + b_{i})

\tilde{C_{t}} = tanh (W_{C} \cdot [h_{t - 1}, X_{t}]^{T} + b_{C})

更新细胞状态：

C_{t} = f_{t} \cdot C_{t - 1} + i_{t} \cdot \tilde{C_{t}}

输出门：

o_{t} = σ (W_{o} \cdot [h_{t - 1}, X_{t}]^{T} + b_{o})

h_{t} = o_{t} \cdot tanh (C_{t})

需要计算

\frac{\partial L}{\partial W _{f}}, \frac{\partial L}{\partial W _{i}}, \frac{\partial L}{\partial W _{C}}, \frac{\partial L}{\partial W _{o}}

以 $W_{f}$ 为例：

\frac{\partial L _{t}}{\partial W _{f}} = k = 1 \sum t \frac{\partial L}{\partial C _{k}} \frac{\partial C _{k}}{\partial f _{k}} \frac{\partial f _{k}}{\partial W _{f}}