51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#MCTS
蒙特卡罗树搜索(MCTS)【转】
最近AlphaGoZero又火了一把,paper和各种分析文章都有了,有人看到了说不就是普通的Reinforcementlearning吗,有人还没理解估值网络、快速下子网络的作用就放弃了。实际上,围棋是一种零和、信息对称的combinatorialgame,因此AlphaGo用的是蒙特卡罗树搜索算法的一种,在计算树节...
代码星球
·
2020-04-14
蒙特卡罗
搜索
MCTS
强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)
在强化学习(十七)基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(SimulationBasedSearch)。 本篇主要参考了UCL强...
代码星球
·
2020-04-11
搜索
强化
学习
十八
基于
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他