囲碁で最強レベルの人間にコンピュータが4勝1敗で勝ったということで、読売のような典型的大衆紙まで人工知能の話でもちきりです。この棋士、現在では世界ランク4位とか(友人に聞いた話で未確認です)。かつてはチャンピオンになったこともある間違いなく最強グループに入る人のようです。
以下では、
学習について
論理について
直感について
考えてみます。
「2016.3.16
「アルファ碁」、韓国・李九段に勝利し4勝1敗
2016年03月15日 22時59分
【ソウル=川村律文】英グーグル・ディープマインド社が開発した囲碁の人工知能「アルファ碁」と世界のトップ棋士である韓国棋院の李世●(イ・セドル)九段(33)の第5局が15日、ソウル市内のホテルで行われ、280手まででアルファ碁が勝利した。(●=「石」の下に「乙」)
人工知能と世界最高の棋士による囲碁史上に残る決戦は、通算4勝1敗と人工知能が圧倒して終了した。
」
この勝利の意味について少し考えてみます。ゲームの難しさを、手の数としますと、
「
ゲーム中の考えうる局面数はオセロが10の60乗、チェスが10の120乗、将棋が10の220乗であるとされるのに対し、囲碁は10の360乗程度である。
」
だそうです。
これがどんな数かはなかなか実感は無理でしょう。因みに、ビッグバンで今の宇宙ができてから137億年、そうです、たったの137億年しか経っていないのです。
ホーキングHawkingの著作に「A Brief Story of Time」というものがあります。この題名はダブルミーニングになっていて、「時間について簡潔に書いた物語」という意味と、「まだほんの短い時間しか経っていない、その時間の物語」という意味です。時間は事象の変化でしか計測できないのですから、宇宙ができる以前には存在しません。だから、時間も、それができてからほんの137億年しか経っていないという意味です。
さて、本題です。
137億年=1.37x1010年
ですね。10の10乗年です。
秒で表現しても、
4x1017秒。たったの10の17乗秒です。
「乗」というのは怖いのです。たとえば、1秒で1兆手を読んでも、1012手にすぎません。すべての手を読むには、10360/1012秒かかります。つまり、10248秒です。仮に、数年でコンピュータの速さが1兆倍になったとしたところで、10336秒に減るだけで、要するに人間の知恵など無意味な時間がかかるということです。
1年は3x107秒にすぎないので、秒じゃわからない、年でという人は、これで割ってみればわかります。
こんな大きな数には名称さえついていません。我々の日常生活では精々が兆までです。京(けい)コンピュータというものが、やっと出てきましたが、日常的ではありません。
名称のある最も大きな数が「無量大数」です。これが色々と説はあるのですが、10の68乗です。
囲碁や将棋などは必勝ゲームで必勝法が存在しますが、こんな手数は計算できないので実際には必勝法を実行できず、ゲームとして成立するのです。例えば、1時間で全手を読めてしまえるならゲームにならないですね。後攻が勝つ必勝ゲームならじゃんけんで先攻、後攻を決めた途端に勝負がついていますから、ただのじゃんけんと変わりません。必勝法は見つかりましたかという質問がWebにあるのですが、この記事でわかるように、すべてを読む方法です。プログラミングは簡単なものです。ただ、現実にはこのプログラムは解を出して停止するということはありません。10の200乗年後に停止しても仕方ないといいますか、それまで銀河はもたないのではないでしょうか。
さて、人工知能と呼ばれているものには、本来のホモサピエンスの知能を実現するものと、人間のもつ非知能的なパターン認識に属するものがあります。定理の証明、自動翻訳を始めとする自然言語処理ー自動要約、会話理解、カナ漢字変換ーー、計画立案などは知能的な人工知能です。これらの実現には論理を使います。 一方、文字認識、音声認識などの認識系ではパターン認識技術を使います。論理を使った知能では結果を、なぜそうなったか説明できますが、パターン認識ではなぜ正解なのか説明できません。そこが大きな違いです。普通の動物はこちらのパターン認識能力で、敵を見つける、獲物を見つけるなどして生きていますが、人間だけはなぜか、論理脳を発達させています。
ではゲームはどうか?麻雀やポーカのような必勝法が無い、運を天に任せるゲームは統計などを使います。一方、将棋、囲碁、オセロ、チェスなど必勝法があるゲームは本来論理的なのですが、上に書いた事実上無限の手数があるので有意に有限な時間内では論理展開できません。そこで、パターン認識の手法を使い、場合によれば、そこに論理を援用するのでしょう。
今回のアルファ碁は、過去の棋譜とそれを覚えて現局面に適用するという、ありふれた昔から普通に行われている方法を用いたパターン認識の手法です。といいますか、人間もこうして上達していきます。入試だって、赤本で過去問を解いて力をつけますね。同じことです。で、その過去問を大量に用意したものを、研究者のあざとい表現では、ビッグデータと呼びます。大量のデータ、大量の過去問というつまらない意味です。
それを覚えることを学習=ラーニングと呼びますが、偏差値70程度以下の生徒がやる、ざっと流すだけの学習ではなく、75以上の生徒がやる徹底的に覚える学習のようなものを深い学習、ディープラーニングとよぶわけです。コンピュータで行うこの種の学習は論理的ではなく、勝ったパターンを覚えていて、それを使う局面を学習するだけです。なぜ勝ったのかは分かりませんけどね。昔からあるパーセプトロンの改良版ですね。多層にして、どんどん深くするのでデープというわけです。上でリンクしたWikiには大したことは書いてありませんが、もっと探せば多層の絵があると思います。
では、過去の棋譜を現在の局面に適用する学習をどのようにしたか?最初は人間が教えたそうです。教師あり学習などと言います。そしてある程度、学習が進んだところで、アルファ碁同士で戦わせ、自己学習させたと聞いています。
というわけで、アルファ碁の用いている方法は簡単です。やったことは単純に、brute force 腕力ですね。ハードディスクやメモリーが膨大とも言える容量をもつ時代になった。CPU速度が3~4GHzなどという途方もない速度になった。複数のコンピュータを結合して分散処理するOSが実現できた。1202台のコンピュータを使ったのだそうです。
このような研究は実は日本ではいち早くされていました。RWCPという、実質、国家プロジェクトです。Real World Computing Partnershipです。御役人と大企業の合作ですから、ゲームなどというビジネスにならないものには使わなかったのですね。
さて、囲碁で勝った人工知能はその他のあらゆる面でも人間に迫るのでしょうか?上に書いた原理を見れば分かると思いますが、極めて人間的な方法です。2000年ころまでは、速度と容量、データ収集の問題があり実現できなかったのですが、今やインターネットはビッグデータそのものです。記憶容量は果てしもなく大きくなっていきます。処理速度は頭打ちですが、人間の神経系よりははるかに速いでしょう。分散処理で何万台ものコンピュータが統合されれば、人間を凌駕するコンピュータシステムができても不思議ではありません。SFのHAL、ゾラックが可能になるでしょう。それにメカトロニクスを組み合わせて人間型ロボットをつくれば、アトム、8マンもできる時代が視野に入ってきました。尤も、彼らは超人なので、まだC-3PO止まりでしょう。
コンピュータが直観をもったという言い方がされてもいますが、パターン認識なので当たり前のことです。直観とはなんでしょうか。問題に対して解を見つけたが、論理的に説明できないものですね。論理的思考手続きを踏まずいきなり出した解です。正解であるかどうかもわからない。人間の脳は神経のネットワークを構成していて、多分パーセプトロンのようになっているのでしょう。問題に対して過去の解がその神経ネットワーク=ニューラルネットワークの中にできています。正解とは限りません。それを直観と呼んでいるのですが、可能なら論理的解の方が、解の正当性を担保できて良いのです。しかし、膨大な事象の中で解を見つけようとした場合、論理では解に行きつかないので直観が有意義なこともあるのです。といいますか、人生って直観だけでいきているようなものですね。過去問+神経ネットによる学習が直観を担っているのです。