Tosok Popo: レースを攻略するAIと、フィクション、共進化

tosokpopo.blogspot.com

ソニーAIとポリフォニーデジタルは、2/10発売の米誌「Nature」で、深層強化学習したAIレーサーが、人間のトッププレイヤー4人とレースをしてタイムトライアル、FIA(国際自動車連盟)公認の「FIA グランツーリスモ　チャンピオンシップ」のレギュレーションに沿ったレースの両方で全ての人間プレイヤーに対して勝利を収めたという。

レースゲームをプレイしたことがある人ならわかると思うが、タイムトライアルはライン取りの最適化であり、ある意味で、「ひたすら練習すれば速くなる」ことは自明のため、AIがタイムトライアルで抜群の性能を達成したとしても、驚きは少ない。「きっとそうだろうな」という想像の範囲内である。

しかし、他のプレイヤーが操作する自動車が入り乱れるレースにおいて、正々堂々と戦って勝利するのはかなり高難度なAIの実装が必要になる。
一般のレースゲームでは、まずあらかじめ決められた走行パターンがあり、プレイヤーが絡むときだけ避けたり当たったりするというイレギュラーを仕込む。しかし、通常のレースゲームに実装されている簡易なAIでは、遊んでいて「レースならではの駆け引き」を感じることはほぼない。

通常のレースゲームにおける簡易AIの操作する他の車というのは、あくまでも「レース進行の目安」であって、その中に「知性」や「人間」を感じることはない。

しかし、実際のレースにおいては、この状況はガラリと変わる。
筆者はごく稀に国内外でカートレースを遊ぶ程度の初心者だが、初心者同士の戦いであっても、レースであるからには駆け引きが重要となる。
前の車を抜くのにどこで仕掛けるか、直線で勝負するか、内側から行くか、外側から行くか、そんなことも考えながら、当然、危険な運転をしてはいけないというマナーも守る必要がある。

AIと対戦するレースゲームをプレイするのと、人間が乗った車同士で戦うというのは全く異なる経験になる。

今回、ソニーAIが開発した「グランツーリスモ・ソフィ(GTソフィ)」は、物理法則や車の特性を理解しコースを高速に走るためのレースカーコントロール、レーシング状況の変化に機敏に対応し、駆け引きを行うレーシングタクティクス、そしてさらにはフェアプレーを実現するための厳密には定義できないスポーツマンシップを守るレーシングエチケットという、三つの要素を学習することに成功している。

特に、レーシングタクティクスにおいては、相手の車の真後ろに入って空気抵抗を減らして燃料消費を防ぎ加速するスリップストリームや、後方から来るライバルをブロックする防御策など、かなり高度な戦術を学習するとともに、レーシングエチケットは守るという、一見すると矛盾した要求を満たす学習を実現したという。

こうなると、巷間に溢れる、いわゆる「AI」と、こうした深層強化学習されたAIは、つくづく別物であると感じさせられる。
もはや、単なる「AI」、たとえば画像を認識したり、言葉を紡いだりするという分野のAIの進化は、数年前に比べれば急速に鈍化している。

その理由は、画像認識や言葉の理解・生成を行うためには、スーパーコンピュータ級の大規模な計算資源が不可欠になってきており、予算の限られた小さな研究室では手に負えなくなってきたことが原因の一端にある。

クラウドの計算資源を使うにしても、無料というわけにはいかず、そうなると最先端の研究ができる機関そのものが限定されてくる。
ちょうど、GPUが活用される前の画像認識の研究のために、Googleが電気代だけで一ヶ月あたり1億円程度を注ぎ込んでいたという話に近づいている。

この時は、猫を見つけるAIを学習するだけでそれだけの大規模な計算資源が必要だったのだが、今同じようなことは、秋葉原で数千円で売っているワンボードマイコンでもできてしまう。

Googleが猫を発見するAIを作ったのは2012年。ちょうど10年前だ。
この頃、なぜそこまでお金がかかってしまったのかといえば、それは人類が無知だったからである。

最近のAIの主流はニューラルネットと呼ばれる技術で、これは生物の脳細胞と同じような構造を計算で作り出して学習する手法である。
ところが発明されてから半世紀近くの間、人類はニューラルネットに夢を抱いては失望するということを繰り返してきた。
うまく学習できる時があるかと思えば、あるとき全然ダメになってしまう。この差はなぜ生まれるのかということについて人々は全く理解できていなかった。

つまり、ニューラルネットはうまくいくのか、または行かないのかということを人類は当時まだよくわかっていなかったのである。
ところが、Googleが最初に「うまくいく」ということを示すと、それを模倣する人たちが次々と現れた。

何せ、半世紀近い時間に渡って「ニューラルネット」に絶望していた研究者にとっては、再びニューラルネットに飛び込んでいくのは勇気の必要なことだった。
しかし一度「できる」ことが確認されると、次々と開拓者たちが乗り込んでいき、次第にニューラルネットがなぜ上手くいくのか、どうすれば上手くいくのかということも確認されるようになってきた。

特に、本来はゲーム開発用に進化してきたGPUの計算とニューラルネットの計算の類似性が発見されてからはさらに研究は加速度的に進歩し、もはやニューラルネットによる「AI」は、新しい常識になった。

そして現在、巨大化したニューラルネットは、画像認識でも言語理解でも飛躍的な性能向上を果たし、これが性能向上したことによってAIが人間の言葉をヒントに自由に絵を描くところまで進歩したのはつい一年前のことである。

このような高性能なAIを作るためには、膨大な学習が必要で、そのためにはスーパーコンピュータ級の設備が必要になっている。
ところが、この状況は、まさに10年前、Googleが猫を発見するのに要した計算資源と電力を思い起こさせる。

あとは時間の問題で、おそらくあと5年もすれば、秋葉原で数十万円程度で買えるパソコンで、同様の学習ができるようになるに違いない。
これがいわゆる「ニューラルネット」によるAIだけに着目した場合の未来予想である。

ところが最近は、設備はもちろんのこと、「学習すべきデータ」の不足が気になるようになってきた。
最近の自然言語理解を行うAIは、インターネット上のテキストデータを貪欲に吸収し、手に入るものはなんでも学習する、という方向性で進歩している。ところが、実際には、学習すべきデータが偏っていたり、間違っていたりすることも少なくなく、その結果、「言葉だけによる学習では限界がある」と考えられるようになってきた。

ところが、「GTソフィ」のような、深層強化学習AIは、学習に要する設備も、学習に要する技術もまるで異なってくる。
まず、レース状況を再現するシミュレータが必要で、このシミュレータはまさにグランツーリスモシリーズが、第一作以来果敢に挑み続けてきたテーマであることは言うまでもない。

この優れたシミュレーション環境があったからこそ、研究者たちは、シミュレーション環境における学習すべき条件を設定することに専念できた。
深層強化学習AIにおいて最も重要なのは報酬の設計である。

つまり、何をした時に「正の報酬」が得られ、逆に何をしでかしたときに「負の報酬」が得られるか、ということを精密に設計するのが人間の仕事になる。
深層強化学習AIも、内部的にはニューラルネットワークを使っているが、このニューラルネットワークは、深層強化学習AIが学習する過程で「勝手に学習する」ものである。このあたりが、深層強化学習の面白いところでもある。

筆者は最近、深層強化学習と量子力学の奇妙な類似性に注目している。特に、ループ量子重力理論と深層強化学習は奇妙に似た点が多い。
どちらもネットワークに着目した考え方であり、どちらも時間に沿っているようで、実は沿っていないところに強い類似性がある。

ループ量子重力理論では、時間は存在しないことになっており、時間の代わりに存在するのが、「イベントの連鎖」という前後関係だ。
これが我々の宇宙の周りではたまたま、エントロピーが増大する方向に「イベントが連鎖」し続けている、というのがループ量子重力理論の考え方である。

ネットワークを通じてイベントが連鎖するというイメージは、正しくニューラルネットワークにおいてニューロンが発火し、連鎖的に広がっていくイメージと符合する。
また、ニューラルネットワークを我々は「フィードフォワード」と呼ぶ処理で、「前から後ろへ」連鎖させていくが、ニューラルネットワークだけを見れば、必ずしも「フィードフォワード」でなければならないということはない。むしろ学習する過程では、「フィードバック」連鎖を起こして学習する必要があり、ニューラルネットは「前から後ろへ」進む過程と、「後ろから前へ」戻る過程を繰り返して学習する。

物理学の世界でも、昔から、「時間が過去から未来へと流れているだけではエネルギーが半分しか足りない」という問題が知られており、ノーベル賞物理学者のファインマンは、「未来から過去へ送られてくるエネルギーがあるのではないか」と考え、既存のエネルギーを遅延波、未来から過去へ送られてくるエネルギーを先進波と名付けた。

もちろん先進波の存在は今のところ数式上だけのものではあるが、人類の歴史を紐解けば、数式上で存在が予言されたものの多くは後に存在が確認されている。
ループ量子重力理論の研究者の一人、イタリアの物理学者カルロ・ロヴェッリは、「時間が存在すると考えているのは、我々人類が無知なため」と主張している。

時間の存在まで無知か無知でないかで判断するのはかなり乱暴に聞こえてしまうが、ほんの10年前まで、我々人類は無知だったために猫を見つけるAIを作るのに1億円の電気代がかかっていたことを思い出せば、それほど無茶苦茶な話とは思えなくなってくる。

ニューラルネットワークそのものも時間とは本来無関係なものだが、深層強化学習AIは、さらに時間を超越した学習を行う。
ほとんどの深層強化学習で用いられる経験再現学習(Experience Replay)は、AIが繰り返し過去のことを思い出しながら学習するという手法である。

つまり、「今この瞬間の状況」だけで学習するのではなく、「過去にどんなことがあって、どんな失敗や成功をしたか」という経験を、定期的に思い出しながら学習するのが深層強化学習において基本的な要素となる。

さらに興味深いのは、深層強化学習においては、「過去のある時点の何気ない決断が、数時間後の結果に大きく影響する」ことまで、遡及的に学習できる点だ。
これができるので、たとえばレースを速く走らせたい「だけ」ならば、乱暴にいえば「とにかく速く走る」という報酬を与えるだけでいい(本当はこんなに単純ではないが)。

昨年、筆者のチームがサッカーをする深層強化学習ロボットを開発した時、最初は色々「ボールに触ると報酬がもらえる」とか「パスを通すと報酬がもらえる」とかあれこれ考えたものの、短期的な報酬だけを与えると極めて能力の低いロボットが出来上がるだけだった。

むしろ報酬を抽象化し、「ゴールしたら正の報酬、ゴールされたら負の報酬」という目的だけを与えた方が、遥かに上手くプレーするようになったのである。

そう考えると、なぜ小学生のサッカーがボールに群がる団子サッカーになってしまうのかという理屈も見えてくる。
実は筆者は、子供の頃からサッカーでなぜみんながボールに群がるか不思議だった。

どう考えても、サッカーでゴールするためにはパスが必要なのに、パスを出さないのだ。

なぜそうなるのか、考えると、彼らはテレビアニメを見てサッカーをやっていたのである。テレビアニメの場面では、主人公がとんでもなく長い時間ドリブルをする場面が映る。

あれを真似しようとすると、まずボールを我先にと取るしかない。

面白いのは、同じ団体球技でも、バスケットボールではサッカーのようにならないのである。
これは見ているテレビアニメが違うからかもしれない。

人間はテレビや映画、漫画といったもので、経験を擬似体験する。つまり、深層強化学習と同じく経験再現学習(Experience Replay)をおこなっているのである。
子供はテレビアニメを見るものだから、テレビアニメを見て主人公に感情移入した結果、実際の試合ではありえないくらい長いドリブルをしたがる。逆に、華麗なパス回しが頻繁に描かれるバスケットボールのアニメを見て育った子供は、パスを回したりフェイントを仕掛けたりしたくなる。

実は、人間もAIと同じように、時間と空間を超越した記憶から学習を行なっているのだと考えられる。もちろんAIの学習過程が人間の学習過程を模倣したものだから当然なのだが、人間の場合はAIと違い、架空の未来の記憶からも学習していると考えられる。

人間は成長するとともに、世界へのメンタルモデルを内部に作っていき、頭の中に「世界シミュレータ」のような環境を作る。
「世界シミュレータ」の中では、世界で起きそうなことが大体わかる。

「あの人をデートに誘ったらどんな反応をするかな」とか、「あの人と遊びに行ったら何が起きるかな」など、段々と「やらなくても予想がつく」ように育っていく。
もちろん実際に行動に移したらまた違った結果になるかもしれないが、それとは関係なく、「もしあの人にこうしたら、こういうことになるだろう」という想像は、いわば架空の未来の記憶である。

「だからやらないでおこう」となるか、「それでもやってみよう」と思うのかはその瞬間の心の動きにかかっている。
でも大概は、成長すると、「ああ、やっぱりな」ということが繰り返し起きる。人間の行動パターンや心の動きというのは、それほどバリエーションがない。
映画や小説、漫画、アニメでも、作っているのが人間である限り、人間の心の動きはある程度の現実感(リアリティ)をもって描かれる。

それは大なり小なり見ている人の「擬似的な経験」として学習され、「このパターンではこうなる」という結果を生み出すようになる。
映画や小説、漫画、アニメといったフィクションは、人類が獲得した「架空の経験を共有し、共進化するための道具」としての側面がある。

見過ごされがちなことだが、実はフィクションというのは、進化し続けているものである。
変わらない部分もあるが、時代の進歩に合わせてフィクション自身が進化する。主人公が男から女に変化して行ったり、小学生から中学生、高校生から大学生に変化したりする。
我々が小学生の頃は、小学生が主人公の漫画ばかりだった。

我々世代がそうなのかと思えば、そもそも漫画そのものが小学生や動物が主人公のものが大半だった時代がかなり長く続いた。

もちろん、「アニメを見て育った世代」が高齢化しているからという理由もあるだろうが、それは副次的な理由にすぎず、単にフィクションの作り手が、「昔と全く同じものは作りたくない」と本能的に考えているからだと思う。

するとフィクションの作り手は、むしろ異常なほど社会の変化に敏感になり、その変化を受け入れた上で、自らの感情や信条を物語として描き出す。
マーベル・シネマティィック・ユニバースの第一作が「アイアンマン」であったのは、まさに時代の要請だった。
20世紀ならキャプテン・アメリカが一作目でも良かったはずだし、世紀末ならハルクが最初という選択肢もあっただろう。

しかし、アイアンマンがリメイクされた2008年というのは、スティーブ・ジョブズがiPhoneを成功させ、世界中の聴衆を毎年のように熱狂させていた時代で、イーロン・マスクがテスラの四代目社長になり、ジェフ・ベゾスが世界一の大富豪と呼ばれる時代、比較的若くて勢いがある成功者が皆エンジニア出身で、しかもヒーローであった時代、アイアンマンほどしっくりくる映画はなかった。

これからのAIは、インターネット上にある情報だけでなく、本や映画、テレビ番組、YouTubeや17ライブなどを見て学習するように進化するはずである。
ただしそれは時代とともに進化するため、世界のどこかで常に「世界中の流行を追いかけ続ける」AIのようなものが出現し、それがマーケティングやブランディングや企画や国家の政策といったものにまで波及していく可能性がある。

人間の作り出したフィクションがAIの想像力を刺激し、AIも「世界シミュレータ」のようなメンタルモデルをやがて持つことになるだろう。これは技術的に全く無謀な挑戦というわけでもない。

AIと人間の共進化はすでに始まっているのだ。

Adblock test (Why?)

からの記事と詳細 ( レースを攻略するAIと、フィクション、共進化 – WirelessWire News - WirelessWire News )
https://ift.tt/n07YuOz
科学＆テクノロジー

Tosok Popo

Pages

Saturday, February 12, 2022

レースを攻略するAIと、フィクション、共進化 – WirelessWire News - WirelessWire News

No comments:

Post a Comment

Arsip Blog

Mengenai Saya