Adam优化器错误：梯度计算所需的变量之一已被就地操作修改

提问者：小点点

Adam优化器错误：梯度计算所需的变量之一已被就地操作修改

我正在尝试实现Actor-Critic学习atuomation算法，它与基本的Actor-Critic算法不同，它有点改变。

无论如何，我使用了Adam优化器并使用pytorch实现

当我向后TD评论家第一个错误时，没有错误。然而，我向后失去了演员，错误发生了。

--------------------------------------------------------------------------- RuntimeError Traceback (most recent call last) in 46 # update Actor Func 47 optimizer_M.zero_grad() ---

~\Anaconda3\lib\site-package\torch\tensor.py在落后（自，梯度，retain_graph，create_graph）100个产品。默认为False。101 """ --

~\Anaconda3\lib\site-包\torch\autograd__init__. py向后（张量，grad_tensors，retain_graph，create_graph，grad_variables）88变量。_execution_engine。run_backward（89张量，grad_tensors，retain_graph，create_graph，---

RuntimeError：梯度计算所需的变量之一已被就地操作修改

以上是错误的内容

我试图找到就地操作，但我没有在我写的代码中找到。我想我不知道如何处理优化器。

这是主要代码：

        for cur_step in range(1):   
        action = M_Agent(state, flag)  
        next_state, r = env.step(action)   

        # calculate TD Error
        TD_error = M_Agent.cal_td_error(r, next_state)

        # calculate Target
        target = torch.FloatTensor([M_Agent.cal_target(TD_error)])
        logit = M_Agent.cal_logit()
        loss = criterion(logit, target)

        # update value Func
        optimizer_M.zero_grad()
        TD_error.backward()
        optimizer_M.step()

        # update Actor Func
        loss.backward()
        optimizer_M.step()

这里是特工网络

    # Actor-Critic Agent
    self.act_pipe = nn.Sequential(nn.Linear(state, 128),
                            nn.ReLU(),
                            nn.Dropout(0.5),
                            nn.Linear(128, 256),
                            nn.ReLU(),
                            nn.Dropout(0.5),
                            nn.Linear(256, num_action),
                            nn.Softmax()
                            )

     self.val_pipe = nn.Sequential(nn.Linear(state, 128),
                            nn.ReLU(),
                            nn.Dropout(0.5),
                            nn.Linear(128, 256),
                            nn.ReLU(),
                            nn.Dropout(0.5),
                            nn.Linear(256, 1)
                            )


      def forward(self, state, flag, test=None):

          temp_action_prob = self.act_pipe(state)
          self.action_prob = self.cal_prob(temp_action_prob, flag)
          self.action = self.get_action(self.action_prob)
          self.value = self.val_pipe(state)

          return self.action

我想分别更新每个网络。

我想知道基本TDActor-Critic方法使用TD误差来表示损失？？或r V（s'）和V（s）之间的平方误差？

共1个答案

匿名用户

我认为问题是在前向传播之后，在向后调用之前，您将梯度归零。请注意，对于自动微分，您需要计算图和前向传递期间产生的中间结果。

因此，在TD误差和目标计算之前将梯度归零！而不是在完成前向传播之后。

    for cur_step in range(1):   
    action = M_Agent(state, flag)  
    next_state, r = env.step(action)   

    optimizer_M.zero_grad()  # zero your gradient here

    # calculate TD Error
    TD_error = M_Agent.cal_td_error(r, next_state)

    # calculate Target
    target = torch.FloatTensor([M_Agent.cal_target(TD_error)])
    logit = M_Agent.cal_logit()
    loss = criterion(logit, target)

    # update value Func
    TD_error.backward()
    optimizer_M.step()

    # update Actor Func
    loss.backward()
    optimizer_M.step()

为了回答你的第二个问题，例如DDPG算法使用平方误差（见论文）。

另一个建议。在许多情况下，价值和策略网络的很大一部分在深度参与者-评论家代理中共享：你有相同的层，直到最后一个隐藏层，并使用单个线性输出进行价值预测，并使用softmax层进行动作分布。如果你有高维视觉输入，这尤其有用，因为它充当了一种多任务学习，但无论如何你可以尝试。（我看到你有一个低维状态向量）。