人工知能(AI)にマインクラフトをプレイさせてスコアを競う大会MineRL competitionが行われました1。何のために大会が開かれたのでしょう? 人工知能とはどんなものでしょう? そもそも、マインクラフトって何でしょう?
マインクラフトとは
マインクラフト(Minecraft)はMarkus Alexej Persson(通称Notch)の作ったゲームです2。2009年から開発され、全世界で1億人以上の月間アクティブプレイヤーがいる人気作です。2019年6月、PewDiePieがプレイ動画を投稿したことから人気が再燃しました(本サイトの記事)。
こちらの動画ではマインクラフトの進化の歴史を辿っています。数種類のブロックを積み上げたり壊したりするだけのゲームに様々な機能が加わってきたことがわかります。
立方体のブロックで作られた世界の中で、ブロックを積み上げたり壊したり、様々なものを作ったりできます。マインクラフトには(敵を倒すなどの)明確な目標はなく3、自由に建物を作ったり宝探しをしたりして遊びます。ブロックを組み合わせて好きなものを作れるのがレゴブロックと似ています。レゴブロックと同じように、知育玩具としても使われます(Minecraft Education Edition)。
マインクラフトは子どもに人気ですが、プレイヤーの平均年齢は24歳なのだそうです。大人を夢中にさせる自由度と奥の深さがあります。
ゲームをプレイする人工知能(AI)
人工知能技術は急速に進歩しています。2017年にはGoogle社の子会社のDeepMind社が開発したAlphaGoがトップクラスの囲碁棋士イ・セドル(李世乭)を4勝1敗で破りました。
その後、AlphaGoの開発は続き、囲碁だけでなくチェスや将棋もプレイできるAlphaZeroが開発されました。
AlphaZeroのすごさは、ルールだけを教えられたらあとは誰の助けも借りずに、自学自習でトッププロ以上に強くなる点にあります。
AlphaZeroは強化学習と呼ばれる技術でできています4。
強化学習は目標とするもの(報酬)を得られるように試行錯誤しながら学ぶ仕組みです。AlphaZeroが目標とするのは「勝利」です。AlphaZeroは勝ちやすい手を試行錯誤で探します。囲碁やチェスは、ルールさえわかっていればあとは自分で自分と対戦してどの手が勝ちやすいかを学べるので、人間の手助けなしに人工知能が強くなれるのです。
人工知能はもはやトッププロでも勝てないほど囲碁やチェスが強くなりました。囲碁やチェスのようなゲームではなく、実世界でも人工知能が自学自習できれば、様々な仕事を肩代わりさせられると期待されています。自動運転もこのような人工知能技術で可能になるでしょう。
大きな障害を克服するためのマインクラフト!
しかし、大きな障害があります。それは、自学自習にとても時間がかかることです。AlphaZeroでは、数千万回、自分で囲碁やチェスを対局して学習する必要がありました。高速なコンピュータなら可能ですが、実世界で試すのは無理な回数です。自動運転を学ぶために数千万回も事故を起こすわけにはいきません。
どうしたらよいのでしょう? 人間が囲碁や運転を学ぶことを考えましょう。人間は闇雲に対局したり運転したりしません。たいていは、先生に教えてもらったり、本から学んだりします。他人がやっているのを見て学ぶことも多いでしょう。
他人がやっているのを見て学ぶことを模倣学習(imitation learning)と言います。人工知能も人のまねができれば素早く学習できて都合がよいでしょう。
そこで、MineRL Competitionが開催されました。
人間のプレイを見て模倣学習し、少しだけ試行錯誤することでうまくプレイできるようになる人工知能を作る大会です5。
この大会では目標はダイヤモンドを手に入れることです。ダイヤモンドを掘り出すためにはツルハシが必要で、ツルハシを作るためには鉄インゴットが必要で、鉄インゴットを作るためには鉄鉱石が必要で、……と多くの段階を踏む必要があります。これは相当難しい課題です。人工知能の技術を次の段階に進めるためには、囲碁やチェスよりは複雑で、実世界よりは単純なマインクラフトの世界がちょうどよいのです6。
MineRL Competitionは2019年6月に始まり、入賞したソフトウェアの開発者が12月に学会で発表しました。1位のソフトウェアの詳細はこちらの動画で見られます。音声はロシア語です。英語版は近々公表予定とのことです。
1位になったソフトでも、ダイヤモンドは掘り出せていません。現実世界で学習する人工知能を作るためには、まだ研究が必要なようです。
おまけ
人工知能研究者の悲痛な叫びです。
強化学習を研究している同僚「仕事は人工知能に全部させて自分はゲームで遊んでるはずだったのに、自分で全部仕事をして人工知能がゲームで遊んでる!」
Coworker on RL research: “We were supposed to make AI do all the work and we play games but we do all the work and the AI is playing games!”
— Andrej Karpathy (@karpathy) October 7, 2016
幸か不幸か、当面は研究者の仕事は続き、人工知能はゲームで遊び続けることになりそうです。
注
- MineRL competitionは人工知能関連の学会NeurIPS 2019の一部として行われた。
- 現在はNotchの設立した会社Mojang ABがマイクロソフト社の子会社となり開発を続けている。
- モンスターと戦うことやタイムトライアルもできるが、必須ではない。
- 詳しくは、強化学習に深層学習(ディープラーニング)を組み合わせて方策と価値を見積もる深層強化学習。
- 6000万フレームの人間のプレイを学習データとして与えられ、試行錯誤する時間は4日間のみに限定された。
- Atari 2600のような古いゲーム機のゲームも人間より巧みにプレイする人工知能が開発されているが、試行錯誤にはかなり時間がかかる。