Machine Learning 简明教程

Machine Learning - Reinforcement

这些方法与之前研究的方法有点不同,并且也很少使用。在这种学习算法中,将有一个代理,我们希望在一段时间内对该代理进行培训,以便它能够与特定环境进行交互。代理将遵循一组与环境交互的策略,然后在观察环境后,它将采取与环境当前状态有关的行动。

以下是强化学习方法涉及的主要步骤:

  1. Step 1 − 首先,我们需要准备一个智能体,其中包含一些初始策略。

  2. Step 2 − 然后观察环境及其当前状态。

  3. Step 3 −接下来,选择有关环境当前状态的最佳策略并执行重要操作。

  4. Step 4 − 现在,智能体可以根据它在之前步骤中采取的行动获得相应的奖励或处罚。

  5. Step 5 − 现在,我们可以根据需要更新策略。

  6. Step 6 - 最后,重复步骤 2-5,直到代理学会并采用最优策略。

下图显示了哪种类型的任务适合各种机器学习问题:

type of task