Skip navigation

人工知能、ゲームを制す

Artificial Intelligence ups its game

John Bohannon

今年、コンピュータプログラムAlphaGo(アルファ碁)が世界第2位の囲碁棋士に5番勝負で勝利した瞬間、人工知能(AI)はひとつの重要なマイルストーンに達した。AIがゲームの達人を打ち負かしたのはこれが最初ではない。もう20年も前に、IBMのDeep Blue(ディープブルー)がチェスの世界王者ガルリ・カスパロフを初めて倒し、その翌年には6番勝負を制してトップの座に君臨している。だが、20年前との共通点はここまでだ。

囲碁のルールはチェスよりシンプルである。碁盤の目の上に石を置き、相手の石を囲って陣地を取る。味方の石はどれも見た目は同じで、役割に違いはない。しかし、この単純明快さゆえに、起こりうる展開としてプレイヤーが読むべき指し手は膨大な数に及び、既知の宇宙に存在する原子の数をも遥かに凌ぐ。そのため、Deep Blueで採用されたような、チェスの専門家が編み出した戦略を手作業でコードに起こし考えうるすべての手を評価するような手法では、AIで囲碁の達人を倒すのは不可能であった。

そこで、AlphaGoでは別の手法が採用された。ロンドンを拠点とするGoogle子会社のDeepMindによって設計されたAlphaGoは、オンライン囲碁ゲームで人間同士が対局した数十万試合分の棋譜を、機械学習アルゴリズム用のデータとして使用し、学習した。そのうえでAlphaGoは、自分――より正確には、バージョンがわずかに異なる自分――を相手に対戦を繰り返し、深層強化学習と呼ばれる手法で自身の戦略を微調整していった。そのようにして生まれたAIが、単なる総当たりの計算ではなく、人間の本能にきわめてよく似た「何か」で、人間に勝ったのだ。

混み合った部屋の中を安全に横切る歩行ロボット、運転手不要の自動走行車、訪問客との簡単な会話――われわれがAIで実現しようとしていることの多くには、管理し切れないほど無数の「判断の可能性」がある。ハードコーディングされたルールでは、そのようなタスクに対応できない。このことだけを考えても、AlphaGoの成功は、深層強化学習がいかに有力であるかを如実に示している。