Amazon SageMaker 将强化学习结合使用 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 将强化学习结合使用

强化学习(RL)结合了计算机科学、神经科学和心理学等领域,以确定如何将情况与行动相映射,以最大限度地提高数字奖励信号。RL 中的这种奖励信号的概念源于神经科学研究,研究了人类大脑如何决定哪些行动最大限度地提高奖励和最大限度地减少惩罚。在大多数情况下,人类没有得到明确的指示,说明要采取哪些行动,而是必须了解哪些行动可以产生最直接的回报,以及这些行动如何影响未来的局势和后果。

RL 问题是使用源于动态系统理论的马尔可夫决策过程(MDP)正式化的。MDP 旨在获取学习代理在试图实现某个最终目标过程中遇到的一段时间内遇到的真实问题的高级详细信息。学习代理应能够确定其环境的当前状态,并确定影响学习座席当前状态的可能操作。此外,学习机构的目标应该与环境状况密切相关。以这种方式制定的问题的解决方案被称为强化学习方法。

强化、监督和无监督学习范式之间有什么区别?

机器学习可以分为三种不同的学习范式:监督、无监督和强化。

在监督学习中,外部主管提供了一组带标签的示例的培训。每个示例都包含有关某种情况的信息,属于某个类别,并有一个标签标识它所属的类别。监督学习的目标是进行概括化,以便在训练数据中没有的情况下正确预测。

相比之下,RL 处理的是交互式问题,因此无法收集代理人可能遇到的具有正确标签的所有可能情况示例。当代理人能够准确地从自己的经验中学习并进行相应调整时,这种类型的学习就是最有希望的。

在无监督学习中,座席通过发现未标记数据中的结构来学习。尽管 RL 代理商可能会从根据其经验发现结构中受益,但 RL 的唯一目的是最大限度地发挥奖励信号。