参考 长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。
LSTM的基本输入输出 如图所示,不同于普通的RNN,LSTM有两个传递状态,分别为
c
t
和
h
t
c^t和h^t
ct和ht,其中c变化缓慢,而h变化可以很大。
计算方法如上图,这里
x
t
和
h
t
−
1
相
互
拼
接
成
一
个
维
度
更
高
的
向
量
再
同
各
种
W
计
算
x^t和h^{t-1}相互拼接成一个维度更高的向量再同各种W计算
xt和ht−1相互拼接成一个维度更高的向量再同各种W计算
进行如图所示计算