1. 函数
1.1 函数是python中的一等对象
函数可以作为别的函数的参数、函数的返回值,赋值给变量或存储在数据结构中。
本文介绍了什么是信息和熵,以及如何去计算信息量和熵的大小,KL散度的理解、交叉熵和KL散的关系。
最近为在知乎上写文章,markdown转到知乎公式$$环境不能很好的转换,在网上找到了一个方法很方便。
打开notepad++
编辑器,ctrl+f
,切记打开正则表达式和匹配新行:
\$\$\n*((.|\n)*?)\n*\$\$
替换为\n<img src="https://www.zhihu.com/equation?tex=\1" alt="\1" class="ee_img tr_noresize" eeimg="1">\n
\$\n*(.*?)\n*\$
替换为\n<img src="https://www.zhihu.com/equation?tex=\1" alt="\1" class="ee_img tr_noresize" eeimg="1">\n
知乎导入markdown文件
多数强化学习问题可以通过表格式或基于近似函数来直接学习状态价值或策略函数,在这些学习方法中,个体并不试图去理解环境动力学。如果能建立一个较为准确地模拟环境动力学特征的模型或者问题的模型本身就类似于一些棋类游戏是明确或者简单的,个体就可以通过构建这样的模型来模拟其与环境的交互,这种依靠模型模拟而不实际与环境交互的过程类似于“思考”过程。通过思考,个体可以对问题进行规划、在与环境实际交互时搜索交互可能产生的各种后果并从中选择对个体有利的结果。这种思想可以广泛应用于规则简单、状态或结果复杂的强化学习问题中。
行为策略:指导个体产生与环境进行实际交互行为的策略。
目标策略:评价状态或行为价值的策略或者待优化的策略。
现时策略学习:个体在学习过程中优化的策略与自己的行为策略是同一个策略。
借鉴策略学习:个体在学习过程中优化的策略与自己的行为策略是不同的策略。
如何解决一个可以被认为是 MDP、但却不掌握MDP 具体细节的问题,也就是讲述个体如何在没有对环境动力学认识的模型的条件下如何直接通过个体与环境的实际交互来评估一个策略的好坏或者寻找到最优价值函数和最优策略。 本章分为三个部分,将分别从理论上阐述:
Dynamic:问题是时序或者顺序的。
Programming:规划是指在已知环境动力学(环境的全部状态)的基础上寻找最优策略和最优价值函数
动态规划的思想:是将复杂的问题分解为求解子问题,通过求解子问题得到整个问题的解,在解决子问题的时候,其结果通常需要存储起来被用来解决后续复杂问题。
当问题具有下列两个性质时,通常可以考虑使用动态规划来求解:第一个性质是一个复杂问题的最优解由数个小问题的最优解构成,可以通过寻找子问题的最优解来得到复杂问题的最优解;第二个性质是子问题在复杂问题内重复出现,使得子问题的解可以被存储起来重复利用。
预测:求解基于某一策略的价值函数 。
控制:求解最优价值函数和最优策略 。
马尔科夫决策过程:可以对完全可观测环境进行描述,几乎所有的强化学习问题都可以转为MDP。