Microsoftのディープラーニング|パックマンで前人未踏のフルスコア!?

Microsoftのディープラーニング|パックマンで前人未踏のフルスコア!?

これまで機械学習のサンプルとしてゲームが使用されることが多いとご紹介させていただいたことがあります。
<bitWave関連記事『DeepDrive|AIが “ゲームの達人” になる日も近い!?』>

オープンプロジェクトチーム「DeepDrive」はゲーム「GTA」の自動車運転を ――
そしてITの巨人「Google」が作成したライブラリ「TensorFlow」でゲーム「マリオカート」を ――

周回を重ねるごとに最短ラインを走行してみせるAIたちには驚愕されっぱなしです。
あれ、待てよ。

 コイツらクルマの運転しかしてねぇじゃん!  

確かに今はコネクテッドカーの時代。
今年1月にはフォード社とトヨタ社とで非営利団体「スマートデバイスリンク コンソーシアム」を設立したばかりです。
<参照:TOYOTA Global Newsroom『業界標準化に向けたコンソーシアムを設立』>

ただし、この「スマートデバイスリンク」はあくまでもスマートフォンと車載端末の連携を重視したもの。
しかし、これらのノウハウは確実にオートモーティブAIの実現化に向けた第一歩となることでしょう。
こういった社会的風潮が、ドライビングシミュレータやレースゲームを機械学習の良きサンプルに押し上げているのかもしれませんね。

でも……、AIはクルマの運転以外はダメなんじゃね?
すでにAIは “ゲームは好きだが大して上手くない” 私を上回っている現状にありますが、追い打ちをかけてくれる情報をricemanさんが共有してくれました。
<参照:livedoor NEWS『MicrosoftがAIを作成 「パックマン」でフルスコアを叩き出す』>

パックマンは単純ながら難しいゲーム

パックマン?
そう、丸いピザから1ピースだけ取り除いたようなルックスのパックマンです。
確かにオートモーティブAIとは無関係そうなゲームですよね。

このプロジェクトを実施したのはディープラーニング技術の研究に注力するチーム「Maluuba」。
今年1月にMicrosoft社に買収されたカナダのスタートアップ企業です。

彼らはAIのチカラによって、パックマン(正確にはミズ・パックマン)のスコアをカンストさせてしまったのだそう。
その様子の動画も公開されています。

そもそもパックマンのカンストって、どれだけ難しいことなのでしょうか。

パックマンは4方向レバーで迷路の中を操作し、4色のモンスターの追跡を交わしながら、通路上に配置されたドットを回収することを目的としています。“パワーエサ” を取ることにより、一定時間モンスターが弱体化し、初めて攻撃することができますが、この“パワーエサ” は画面内に4つしかないため、これを活用するタイミングがステージクリアのキモとなるわけです。
また、4色のモンスターは行動タイプが別れており、「追いかけるタイプ」、「待ち伏せするタイプ」、「パックマンと点対称の位置を目指すタイプ」、そして「ランダム行動のタイプ」と一筋縄にはいかない曲者ぞろい。

これを人間がプレーしようとすると、ドットや弱体化したモンスターを攻撃しようとする “攻めの姿勢” と、モンスターをいかに回避するかの “逃げの姿勢” との折り合いを瞬時に計算する必要が出てきます。
ちょっとした欲や強気の姿勢がカンタンにゲームオーバーとさせてしまうんですね。思い出しましたか?

先のドライビングシミュレータやレースゲームとは異なり、繰り返しプレイすることで上達するというわけではないパックマン。
これをAIはどう乗り越えたのでしょうか。

分割統治で瞬時に最適解を

先の動画では、画面下部に5つの8方向の矢印マークがあることが確認されます。

これらは一番左から以下のような意味合いを持っています。
 は「モンスターから逃げたいAIが導く方向とその意志の強さ」 

 は「通路上のドットを回収したいAIが導く方向とその意志の強さ」 

 は「通路上のパワーエサを回収したいAIが導く方向とその意志の強さ」 

 は「弱体化したモンスターを倒したいAIが導く方向とその意志の強さ」 

そして一番大きな右端の8方向矢印マークは……
 は「上記4つのAIの意志を考慮し、重み付けした上で算出された最適解」 

つまり、複数のAIがそれぞれで意志表示を示し、より強い意志によって最終的な行動を決めているということです。
これって人間の「損得勘定後の最終決定」にちょっぴり似ていますよね?

この開発チームは従来の強化学習に加え、分割統治法による “各AIの意志の重み付け” を行うことにより最適解を出すのは新しい試みなのではないでしょうか。

この技術がパックマンという限られた世界を飛び出し、様々な分野で実用される日もそう遠くはないことでしょう。

コメント