0%

1. Introduction

强化学习在不同领域有不同的表现形式:神经科学、心理学、计算机科学、工程领域、数学、经济学等有不同的称呼。

强化学习是机器学习的一个分支:监督学习、无监督学习、强化学习

强化学习的特点:

  1. 非监督、只有一个奖励信号。
  2. 奖励信号不是实时的,而是延迟的。
  3. 时序是很关键的。所以数据不再是独立同分布的数据。
  4. 当前agent的action影响后续的数据。

强化学习应用广泛:直升机特技飞行、经典游戏、投资管理、发电站控制、让机器人模仿人类行走等

阅读全文 »

本地测试:hexo s

发布到GitHub:hexo clean && hexo g && hexo d

生成新文章:hexo new [layout] <title>

阅读全文 »

0. Summary

reformer主要提出的Locality-sensitive hashing attention,根据attention的稀疏和softmax的最大元素支配性质只关心与query最近的K,通过Locality-sensitive hashing实现由query找key,但是受到Q=K的限制。还用到Reversible residual layer降低中间层的内存、以及feed forward层进行Chunking进一步降低显存。

阅读全文 »

MIT算法导论课程:Lec14 竞争性分析,自组织表,对应Sleator, Daniel D., and Robert E. Tarjan. "Amortized efficiency of list update and paging rules." Communications of the ACM 28, no. 2 (February 1985): 202-208.

阅读全文 »