强化学习是一种学习如何从状态映射到行为以使得获取的奖励最大的学习机制。这样的一个agent需要不断地在环境中进行实验,通过环境给予的反馈(奖励)来不断优化状态——行为的对应关系。因此,反复实验(trial and error)和延迟奖励(delayed reward)是强化学习最重要的两个特征。
本套强化学习课程主要包括经典算法原理讲解与案例实战两大部分。通俗讲解当下主流强化学习算法思想,结合实例解读算法整理应用流程并结合案例展开代码实战。整体风格通俗易懂,适合准备入门强化学习并进阶提升的同学们。