提问者:小点点

keras状态LSTM


请考虑这个简单的例子。

nb_samples = 100000
X = np.random.randn(nb_samples)
Y = X[1:]
X = X[:-1]
X = X.reshape((len(Y), 1, 1))
Y = Y.reshape((len(Y), 1))

所以我们基本上

Y[i] = X[i-1]

模型只是一个滞后算子。

我可以用无状态LSTM学习这个模型,但我想在这里理解并应用Keras中的有状态LSTM。

因此,我试图通过一个有状态的LSTM来学习这个模型,通过一对一对地给出值(x,y)(batch\u size=1)

model = Sequential()
model.add(LSTM(batch_input_shape=(1, 1, 1),
               output_dim =10,
               activation='tanh', stateful=True
          )
    )
model.add(Dense(output_dim=1, activation='linear'))
model.compile(loss='mse', optimizer='adam')


for epoch in range(50):
    model.fit(X_train,
              Y_train,
              nb_epoch = 1,
              verbose = 2,
              batch_size = 1,
              shuffle = False)
    model.reset_states()

但模型没有学到任何东西。

根据Marcin的建议,我修改了训练代码如下:

for epoch in range(10000):
    model.reset_states()
    train_loss = 0
    for i in range(Y_train.shape[0]):
        train_loss += model.train_on_batch(X_train[i:i+1],
                         Y_train[i:i+1],
                         )
    print '# epoch', epoch, '  loss ', train_loss/float(Y_train.shape[0])

但是我仍然看到平均损失在1左右,这是我随机生成的数据的均方差,所以模型似乎没有学习。

我有什么不对劲吗?


共1个答案

匿名用户

正如你可能在这里读到的,即使你的模型状态没有因为你的网络的状态而被重置——你的优化器的参数是——并且由于优化器在循环神经网络训练中非常重要的事实——重置它们的状态可能是极其有害的为了你的训练。为了防止这种尝试:

for epoch in range(50):
    model.train_on_batch(X_train,
              Y_train)
    model.reset_states()

train\u on\u batch方法不会重置优化器状态,使您的培训成为可能。