数学セミナー 2017年11月号を手に入れた(コンピュータ将棋・囲碁のこれから)

数学セミナー 2017年11月号を手に入れた。
コンピュータ将棋・囲碁のこれからという記事が載っている。

数学セミナー 2017年 11 月号 [雑誌](Amazon)

あとで読もうと思って積んでいたら、その間にAlphaGo Zeroという大ニュースが来てしまっていた。
→ 「ＡｌｐｈａＧｏ」が進化囲碁の打ち手教えずに従来型破る NHKニュース
→ プロ棋士に学ばないGoogleの最強AI囲碁プログラム「AlphaGo Zero」 (1) 過去の棋譜から学ばずに強くなったAlphaGo Zero マイナビニュース

人間の棋譜を機械学習の学習データに使わなくても、従来型のAlphaGoを超える学習ができたというのが驚異だ。
将棋も同様にできるのだろうか。

—
追記

上記の数学セミナーの記事を読むと、将棋への応用は難しそうというような記事が見られる。

盤面の変化の数が多いのは、囲碁も同様で、全部の局面変化をツリーにして深い部分を先へ先へと全部を深く読むのは不可能だ。
枝刈りという見込みのありそうな変化を優先して先の局面を探索するのだけど、この「見込みのありそう」という局面状態のざっくりとした評価をするのが難しい。(先を読まずに判断する必要がある)
さらに最善手を選ぶためには局面を高精度で良いか悪いかを判定するのだが、これがさらに非常に難しい。
従来は、駒の並びのパターンを抜き出して点数を付けて、あるパターンなら点数を高くつけたり、逆に点数の低いパターンがあったりし、その合計点で局面が良いか悪いかを評価する。
それぞれの点数の重み調整というのが難しかったのだが、機械学習で過去の将棋の棋譜から学習させて調整させることで2005年くらい(?)から劇的に強くなり、人間より強い将棋ソフトが出現した。

AlphaGo以前の類似の他の研究で、局面を評価するためにモンテカルロ法を応用した手法が発明された。局面が良いか悪いかの判断方法を、石(将棋の場合は駒)の並び方のパターンから判断せずに、その代わり、ランダムに手を進めて、勝ち負けが決定するまでシミュレーションを繰り返し、その勝率で良いか悪いかを判断するという手法だ。
ただし、これはちゃんと判断できるだけ繰り返そうとするとかなり計算の量が多くなってしまう。

AlphaGoでは、モンテカルロ法のシミュレーション結果の予想値を石の並びのパターンから計算するニューラルネットワークを作成している。このニューラルネットワークの学習はたいへんなのだが、学習が終われば短時間に局面が良いのか悪いのかの見込みを短時間に求めることができて、効率的な枝刈りができるようになる。
このあたりがAlphaGoが強くなった理由なのだそうだ。
文章で書くと、あまり将棋への応用は難しそうではないかのように思えるが、数学的には相性が悪いというか難しいらしい。

—
さらに追記

AlphaGo Zeroでは、人間の棋譜から学習をしなくても強くなったという。
棋譜、つまり定跡や教師がなくても自己対戦で試行錯誤を大量にさせただけでも自動で学習してAlphaGoよりも強くなったということだろうか?
英文の論文の原文とかはちょっと読めないので、また解説記事が出てきたら読んでみる予定だ。

kako blog

数学セミナー 2017年11月号を手に入れた(コンピュータ将棋・囲碁のこれから)

コメントを残すコメントをキャンセル

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル