胜率100%赢半目和胜率90%赢10目它会选前者。但是看下实际棋局就知道这个选择往往不是100%和90%的区别,而是99.99%赢半目和99.98%赢10目的区别,甚至可能是99.98%赢半目和99.99%赢10目。Monte Carlo随机抽样会带有样本误差,所以两种下法的实际胜率是没有区别的,相当于狗随机挑了一招。
这个问题其实很好解决,胜率离100%之间的距离小于抽样误差之后把目标函数从胜率改成monte carlo走到终盘的平均目数就行了。deepmind不改只能说他们志不在围棋,能赢就行。
这个问题其实很好解决,胜率离100%之间的距离小于抽样误差之后把目标函数从胜率改成monte carlo走到终盘的平均目数就行了。deepmind不改只能说他们志不在围棋,能赢就行。