Re: AlphaGo Zero 投稿者:山下 投稿日:2017年10月19日(木)07時44分48秒
衝撃ですね・・・。
内容は囲碁の知識などは一切なしで、ルールのみから作ったものが
セドル版のAlphaGoに100-0で勝つほど強くなったそうです。

1. 人間の知識などはいっさいなく、囲碁のルールのみ、からの自己対戦による強化学習
2. 入力は黒と白の石の配置のみ。ダメの数とかは一切なし。
3. Policy、Value、などと分割せずに、1つのネットワーク。
4. モンテカルロ法(Rollout)は使っていない。

個人的には 4. が衝撃でした。
以下はメモです。
人間がよく打つ隅の定石を見つけた(5つの例)。
33に入る定石は5手目に黒がケイマに飛ぶ形を最終的に好む
学習の初期は石を取ることを好み、次に死活の基礎を学び、最終的にバランスが取れた美しい手を打つ
学習から36時間でセドル戦のバージョンに追いついた。
セドル版には100-0で勝つ。
プロの手の一致率は48%ぐらいと低い。プロの手から学習したものは54%ぐらい。
ResNetが単なるConvolutionより優秀で、PolicyとValueを一つのネットワークで評価するのが優秀。


出力はValueとPolicy。一つのネットワーク。
入力は石の配置と着手履歴(棋譜)。
0から7手前までの黒、白の配置と手番(17面)
ResNetを使ってる。Batch Normalizationあり。
40 Residual Block
1 Block は (3x3 256, BN, ReLU)が2つ。つまり 80層のConvolution
ZeroはMasterに89勝11敗
MasterはZeroと同じ手法で作られているが、人が作ったRolloutは使っていた。


学習段階ではMCTSを使ってる。
学習の中に先読みを取り入れた、新しい強化学習
--------------------------------------------------------
自己対戦の棋譜はこちらにあるようです。
AlphaGo Zeroの自己対戦の棋譜
https://www.nature.com/nature/journal/v550/n7676/extref/nature24270-s2.zip
http://524.teacup.com/yss/bbs/