1. Introduction
强化学习在不同领域有不同的表现形式:神经科学、心理学、计算机科学、工程领域、数学、经济学等有不同的称呼。
强化学习是机器学习的一个分支:监督学习、无监督学习、强化学习
强化学习的特点:
- 非监督、只有一个奖励信号。
- 奖励信号不是实时的,而是延迟的。
- 时序是很关键的。所以数据不再是独立同分布的数据。
- 当前agent的action影响后续的数据。
强化学习应用广泛:直升机特技飞行、经典游戏、投资管理、发电站控制、让机器人模仿人类行走等
强化学习在不同领域有不同的表现形式:神经科学、心理学、计算机科学、工程领域、数学、经济学等有不同的称呼。
强化学习是机器学习的一个分支:监督学习、无监督学习、强化学习
强化学习的特点:
强化学习应用广泛:直升机特技飞行、经典游戏、投资管理、发电站控制、让机器人模仿人类行走等
reformer主要提出的Locality-sensitive hashing attention,根据attention的稀疏和softmax的最大元素支配性质只关心与query最近的K,通过Locality-sensitive hashing实现由query找key,但是受到Q=K的限制。还用到Reversible residual layer降低中间层的内存、以及feed forward层进行Chunking进一步降低显存。
MIT算法导论课程:Lec01 简介及算法分析,对应书上的章节:Chapters 1-2。
MIT算法导论课程:Lec02 渐进符号、递归及解法,对应书的章节:Chapters 3-4, excluding section 4.6。
MIT算法导论课程:Lec12跳跃表。
MIT算法导论课程:Lec14 竞争性分析,自组织表,对应Sleator, Daniel D., and Robert E. Tarjan. "Amortized efficiency of list update and paging rules." Communications of the ACM 28, no. 2 (February 1985): 202-208.
MIT算法导论课程:Lec15 动态规划,最长公共子序列,对应书上的章节:Chapter 15