AI、特に囲碁AIについて、「AIは価値がわかるのか」を考えた。それから「価値」について考えてみた。

数年前(2016年)ですが、囲碁AIが世界的なプロ棋士に勝ったという事が話題になりました。それ以来AIに興味が湧いて、AIについて調べてきました。囲碁AIのことを少し話を拡げて書いてみようと思います。その流れのなかで、AIは価値判断ができるのかに広く思いを巡らすことになって、長いブログとなりました。

囲碁はその局面で一番価値の高いところに石を置いていくゲームだと言われます。囲碁は最終的には陣地(地と言います)の多い方が勝つ(コミと言われるハンデのことは触れません)ゲームなので、その時にいちばん地が取れる手がいいかというと必ずしもそうではなく、戦うための勢力を作る手を打って、局面が進んだ時にその石(のならび)の力(厚みと言います)を働かせて相手の陣地を減らしたり、殲滅したりする手がいい手になる場合もあります。

このように、囲碁はその局面ごとでの場所の(将来)価値の判断が難しく(相手も違う価値観で見ているので)、短期的な戦いの戦術(テクニック)と長期的な展望(戦略)を合わせ持つことが必要な高度なゲームであると言われます。

囲碁のソフトを作ることは、この場所の価値をコンピュータで計算させて一番価値の高い手を導き出すことを意味するので、そのようなアルゴリズムを思いつくことは大変難しく、アマの有段者程度のソフトは作れても、プロ棋士に勝てるようなソフトなど当分出てこないのではないかと言われていたのです。

その常識を見事に打ち破ったのがGoogle/Deep MindのAlpha Go(デミス ハザビス CEO)でした。これは今までの囲碁ソフトが、モンテカルロ探索と言われる、その場面からのゲーム展開を(囲碁のルールには則った)ランダムな手で進めて勝負をつけるという、手の先読みを山ほどやって、その中で勝ったゲームの中に一番多く出てくる手を次の一手にするという、理屈も美学もなにもない、計算機の力技にたよった手法であったところに、AIによる過去の対局経験から学んだ、勝つための価値判断を入れ込んだ、というのがAlpha Goの技術的なブレークスルーであると言われています(第2世代の、Alpha Go Zeroはそれよりもっと進化しましたが、そのことは後で述べます)。

つまり、AIが過去の棋譜を勉強して、人間が経験を積んで感覚的につかんでいる石の価値をプロ棋士よりも高いレベルで判断できるようになったかのような印象を持ちます。

この話を極端に進めると、政治にしろ経済にしろ、自動運転車のトロッコ問題(飛び出した人をはねるか、ハンドル切ってガードレールに車をぶつけるかの判断)にしろ、価値判断の難しいことはAIに任せた方が人間よりもいい判断をするんじゃないの、なんて思う向きも出てくるかもしれません。

そういった極論に対する根拠のない議論をする前に、AIとは何で、AIは何をどのように学んで、価値判断はどのような仕組みで行っているかを理解することから始めるべきだと思います。そんなことを、このブログでは順を追って書いてみようと思います。

【1. まずはAI(Deep Learning/CNN)の復習から】

ここでいうAIとは、Deep Learning/ CNN(Convolution Neural Network)のことです。ここで学習(Learning)とか神経網(Neural Net)などという、なにか人間の脳を思わせる言葉が使われていますが、それに惑わされてはいけません。Learningとはデータとその分類ラベルをセットにしてコンピュータにインプットする事です。Neural Netとはその入力と出力の間の関係を多元の一次の式(線形関数)で表そうという事です。Convolutionとはざっくり言うととフィルターみたいなものです。

囲碁のAI(CNN)とは、他人の棋譜にしろ、囲碁AIが自分のコピーと対戦した棋譜にしろ、その入力(局面)と出力(次の一手)の間で成り立つ関係式を統計的に最も誤差が少ない形で導き出したものです。理屈や原理から導かれる因果関係を説明するものではなく、統計的な相関関係を示すだけのものです。

株で言えば罫線分析に似ている。株価の過去のトレンドの膨大なデータを統計処理してある関数式を作り、その株の過去の動きから得られる統計的な確率からして、明日の株価はこうだというのと同じでです。

株価は、とても複雑な政治経済の突発的、かつ中長期的事情やそれを受けた投資家の心理(今は機関投資家アルゴリズム取引などのコンピュータの力がそれをレバレッジしていますが)を反映して動くものだと思いますが、AIは自分が経験していない重大な新規事象を瞬時には考慮できません(だんだん学ぶことはできます)。なので、AIが学んだ過去のデータの中に含まれていない状況が発生するとその予測ははずれます。逆に言うと過去の経験がものをいう分野ではAIは数理計算の技術とデータの量の力で人の経験知を超えていけます。

AIの開発者がやっていることは、データの数を増し(ビッグデータと言います)、統計モデルを精緻化してその誤差を減らすことで統計的な数値(確率や期待値)の信頼度をあげる。それだけです。それをしようとすると通常は膨大な計算が必要になるのだけれど、それを可能にするコンピュータの性能向上とその上で動作させる統計処理のアルゴリズムが進化してそれが可能になった、という事です。

【2. 画像認識AIのしくみ】

経験(データの数)がものをいう分野の一つが画像認識です。これにAI(CNN)を適用して成功したというのが、今のAIブームの始まりです。画像を認識するAI(猫の写真を見せるとそれは猫だというAI)の作り方は以下のようなものです。

猫の写真データを入力として、「これは猫である」というラベル(分類)を出力とする関係をコンピュータに大量にインプットします。同様に、犬や狸の画像データ入力に対して「犬」、「狸」というラベルを出力とする関係も大量にインプットします。こういうデータインプットを膨大に行った後、出力(ラベル)側から入力(画像データ)に戻る経路を関数で表して、それを糸のようなものだと思うと、猫のラベルから出た糸は猫の写真に戻り、犬のラベルから出た糸は犬の写真に戻り、狸のラベルから出た糸は狸の写真に戻る、ような糸を一つの式(関数:これをCNNと呼びます)で表現することができたとします。このこと(おおよそ正しく逆戻りができるCNNのパラメータが設定できたこと)をAIが学習したと言います。

この学習したCNNに写真のデータを入力すると今度は学んだ関係式を使って入力から出力への順方向の糸を発生させてくれます。今まで学んだことのない犬の写真を入力して犬のラベルに糸をつけてくれれば、「おお、このAIは見たことのない犬の写真を見て犬と判定したぞ」という訳です。

【3. AIの判断の意味】

この話は分かり易く単純化していますが、実際にAIが示すのは確率です。新しい犬の写真を見せて、これが犬である確率は98%、猫である確率は1.5%、狸である確率は0.5%というようになります(各ラベルの確率を全部足すと100%になります)。正解のラベルを示す確率が高ければ高いほど性能の良いAIという事になります。それはトレーニングデータの量と質、CNNのパラメータを統計的に決めるその精度が良かったという意味になります。

では、この「猫」、「犬」、「狸」というラベルしか学んでいないAIに「虎」の写真を見せたらどうなるでしょうか。想像ですが、「猫」60%、「犬」30%、「狸」10%のようなことになるのだろうと思います。学んでいない「虎」というラベルは絶対に出てきません。つまり知らないことは知らないのです。AIはこの画像は今まで学んだ分類ラベルの内で、それに該当する確率が高いラベルを順番に示すとこれこれです。ということを示すにすぎません。

これでは単なる分類機ですね。これを知性というかというと、そうではないでしょう。

ここで大事なことはラベルの確率が一番高いものを正解とするのか、また、その確率が何%以上であったら信頼しようという基準は、AIを使っている人間が定めているという事です。

「なんでもかんでもAIに判断を任せていいのか」という問題提起は、その問い自体が曖昧過ぎて意味がないし、ある基準を作ってAIに判断を代行させた(例えばレントゲン写真から癌の有無を判断する)としてもその最終責任はその基準を定めた人間にあるという事です。

AIがやったことだからと責任を機械に転嫁することはあり得ないのです。現実的な例で言うと、例えば、肺のレントゲン写真1000枚を医師が1日で癌の有無を診断せざるを得ない状況を考えます。既に肺癌写真のトレーニングを受けた信頼度の高いAIがあれば、それを使って癌のある確率が0.5%以下となったものはパスとして、残った癌存在確率の高いものだけを医師が時間をかけて丹念に見る方が全体として検診の効果が高いと思えばそれは医師の責任の下でやればいいのです。万が一癌のある確率が0.5%以下であった写真の患者が癌であったとなれば、それはAIの責任ではなく、そのAIをトレー二ングした人間(インプット画像の量と質が十分だったか)と、0.5%以下は問題なしとの基準を定めた人間の責任になるのは当然だと思います。工場での不良品選別の画像診断AIも同じだと思います。

【4. 囲碁AIの凄いところーAIに価値を教えた】

 囲碁AIの基本もこの画像認識にあります。

囲碁の局面(黒石と白石の配置)を入力として、その次の一手をラベル(出力)とします。グーグル/Deep Mindはこのデータを囲碁のネット対局の棋譜(アマ6段以上の人対人の対戦の16万局)から集めて次の一手を示すCNNを作りました。その次の一手のCNNが示す一手は実際の対局の手に対して57%の一致率になりました。これを使えば、アマ6段相当の手が打てる囲碁AIになりそう思えます。

グーグル/Deep Mindの凄いのはここからです。上記方法でアマ6段相当になった囲碁AI同士を対戦させ、勝負をつけさせます。そして勝った方の手を終局から逆にたどって行って、その勝ちに至る手がより多く出るようにCNNのパラメータを(数値計算の技術を使って)修正します。

そしてこの勝つ手をより高い確率で打てるように改善されたCNN同志でまた対戦させ、同じことをします。このような自己対戦を128万回やって、勝率の高い次の一手を打てるCNNをだんだん自己対戦による鍛錬で鍛えるようにして作り上げました。

これを価値のCNNと呼びます。この価値のCNNで次の一手の勝率を計算し、別途行うモンテカルロ探索の結果と統合的に計算して、一番勝率の高い手を打てるAIを作り上げました。それがAlpha Goです。

価値のCNNを自己トレーニングで作りあげる手法を最初に成功させたのはブロック崩しゲームです。これもなんとDeep Mindの仕事です。Deep Mindはこのブロック崩しAIの成功を囲碁に持ち込んだというのが正し説明の手順かもしれません。

ブロック崩しのAIでは、崩したブロックの数を価値の値とします。これが多くなるようにCNNをトレーニングします。CNNにはブロック崩しのゲームの場面(ブロックの配置と玉の位置)を入力として、それに対するレバーの操作を出力ラベルとする設定をして、ゲームをさせます。

ゲームオーバーになったらゲームで崩したブロックの数を価値としてそれに至ったレバーの動きに対して逆向きの糸をつけます。そして崩したブロックの数がより多くなるレバーの動きがより出やすくなるようにCNNのパラメータを実戦をする毎に変えていきます。

その結果、ブロックの画面の隅の部分を突き抜いてボールをブロックの上面にもっていって自然落下とその反射でブロックを上面から崩していくという、人が思いつかなかった効率の高い攻め方を習得して無敵になったのです。

このブロックの画面の隅の部分を突き抜いてボールをブロックの上面にもっていくという攻め方は、多くの実戦から偶然見つけたものでしょうが、それを価値最大化の良い手であると学習してCNNが取り込めたのが結果としての成功要因ですね。

【5. AIの認識する価値は人の価値観を変えるのか】

さて、AIの認識する価値について考えてみましょう。囲碁の場合は「勝った」という事でした(地を大きくするとしないところがミソだったようです)。ブロック崩しの場合は「崩したブロックの数の最大化」です。決められたルールの中で行うゲームで、明確な価値ですね。異論はないし、経験知が増えればそれにつれて価値の最大化に至るルートの最適化が行える分野であれば、AIが経験する場合の数が人間が経験する数と比べてケタ違いに大きいことが理由になって、人智を超える最適な一手が出てきても不思議ではありません。

では、囲碁の場合、人がAIに勝てなくなったからと言って、もう人間のプロ同士の囲碁はレベルが低いから意味がない、となってプロの囲碁界は衰退するでしょうか。そうはなっていないですね。

その象徴はイセドルがAlpha Goに対して打った「神の一手」です。結果だけみれば、イセドルはAlpha Goに1勝4敗でした。ですが、第4局で、AIが全く見ていなかった、この一手「白78手」を打ったことで、プロ棋士の凄さを見せつけたのです。この手はAlpha Goの学習経験にない深遠な手(打つ予想確率1万分の1以下)だったので、Alpha Goは暴走気味になったようです。こういった、人を感動させる行動ができるということが、人が何かを行う価値なんだろうなあと思います。機械(AI)がそれができるかどうかは、人間がそれをどうとらえるかによるんだと思います。

一方で、Deep Mindはそれを受けて、Alpha Go Zeroという第2世代を開発しました。これは次の一手のCNNと価値のCNNを一体化し、人間の棋譜を全く学ばずに自己対戦(490万局、4TPUの1000台並列で3日間)だけでCNNを最適化しました。その精度がいいので、連携させるモンテカルロ探索も最後まで探索せずとも、次の手の勝率を精度高く計算できるようになりました。

このAlpha Go Zeroは旧バージョンのAlpha Goよりも明らかに強く、人間の棋譜や、シチョウのような囲碁の打ち方すら教えずに、つまり、人智を全く使わずに、人が勝てない最強の囲碁AIになったと言われています(人との対戦歴はありません)。Deep Mindはここで囲碁AIの開発を止めて、そこで培った技術を他の分野への転用を図っているようです。

さて、プロの囲碁界はAIの打った「新手」、「新解釈」を取り入れてますます面白くなっていると思います。そういった新しい潮流を柔軟に取り入れた若手がどんどん出てくるのは見ていて楽しいことです。それに対して中堅層が人智の力で対抗していくのも見ごたえがあります。AIの見つけた知見を取り入れて人間の行う事を深化させていく、それが人とAIの良い関係だと思うのです。

囲碁AIの手で面白いのは、「序盤から三々を打つ」ということです。三々の手というのは地を取る手で、その一局の方向性がまだ定まっていない序盤で打つのは価値が小さいからよくないとされていたのです。

これは私の想像なのですが、人は手順という、ゲームの進んでいく時間の流れを意識して囲碁をとらえます。一方、AIの価値関数は勝ったという最終結果から石の価値を遡って評価します。ゲームの時間的な流れは考慮していないように思えます。

勝った囲碁では三々に打っていることが多いのであれば、いつ打ってもいいだろう、という感覚で打てる時に三々に打ってしまう、ということになっているのではないかと想像しています。

これを見て美しくないと思う感覚が人にあるのも理解できます。AIは勝つという事に最短距離、最大効率で進むんだと思います。勝負の世界でも美しいものを見たいというのはとても人間らしいことです。「美しく勝つAIを作る」にはどういう価値関数を設定すればいいか、想像がつかないですね。

【人間の価値観】

数値化できない「真善美」が人間の価値判断の本質で、その領域は統計的にでも数値化できないのであれば、今のAIが人間の根源的な価値判断を代行することはないんだろうと思います。

GANというAIの技術を使ってモーツアルトみたいな音楽とか、レンブラント書いた絵のような(ニセモノの)芸術作品を作るAIもあります。でも、それは模倣であって創造ではないと思います。

それを進めて、モーツアルトドビュッシーとストラビンスキーを学んだAIが、なにか音楽に聴こえるものを出力したとして、それは新しい価値を生んだと言えるのでしょうか。既存のものの線形結合的な混合体を、体裁を整えて作ったものに新しい価値があるのでしょうか。オリジナルであることの意味について考えてしまいます。それは人間の仕事にも言えます。

話を拡げて、人類の目指すべき価値は「最大多数の最大幸福」だと思いますが、幸福という事が定式化できない限り、AIは状況判断の道具にはなり得ても、全面的に価値判断を託せるものにはなり得ないんだろうと思います。逆に言うと、AIには誰が見てもそうだろうという価値の追求が定量化できることをやらせる、というのが今のAIの最善の使い方なんだろうと思います。

【AIと人間の関係】

ビジネスの場合は、データの中に商機ありなので、AIはどんどん活用されるべきですね。ビジネスとはニーズをつかみ、そこにモノやサービスをサプライすることで付加価値をつけ、それをお金に変えて最初のお金(資本)を増やすことです。それが資本主義です。

ネットの中でAIがデータをハンドルすることでビジネスの大半のことは実行できそうです。重さのあるものの運搬だけがネットでできないことです。その作業を人間を搾取する形でなく、AIを内蔵したロボットやドローンにやらせて、人を単純作業から解放できるのであれば素晴らしいですね。AIやロボットが稼いだお金を人間が使う。それが「人間の最大多数の最大幸福」に寄与するような社会分配の仕組み(税と所得の再分配)を作るのが人のやる仕事の意義である。そんな風に思うのです。

蛇足ですが、ペットロボットが悩みの種です。ペットロボットの持つ意味は否定しませんが、本来、AIとロボットは、人間が自分の奴隷のようにこき使うべきものだと思っています。

ものにすぎないペットロボットに感じる愛情のようなもの実体は、ロボットそのものにあるのではなく、それを育てている人の心の中にあるものです。それが弁別できずに、変にロボットに愛情を感じてしまうのは悩ましいですね。

いきものである牛や豚を食べていいのか、とか、人の友である馬の肉を食うのはけしからん、などという議論とごちゃごちゃになってきますね。人間の幸せだけを考えればいいという、人間至上主義そのものが間違いだという議論もあります。

AIを考えるという事は人間を考えることと裏腹の関係ですね。それに答えを出すには科学だけでは足りないかもしれません。それを補うのが哲学や倫理学と言いたいところですが、まだ自分の中には答えがありません。

話が発散気味ですが、AIがあたかも知性(価値が扱えること)を持っているかもしれないという状況はその意味を注意深く見て行くことが大切だと思います。逆にいうと知性って何よ、判断するってどういうこと、についても考えたくなるのです。そして、それを単に哲学だとは言いたくないのです。

哲学を超えて、物理学の根源的な問い(時空ってなに、それと人の認識関係はどうなっているの)にも迫ってみたいのです。それが逆に人間(の認識の様式)を定義することになるかもしれないという妄想もあります。

そんなことをこれからもブログに綴ってみたいと思っています。

 

注)このブログの、特に囲碁AIに関するところは、下記書物を読んで理解したことをまとめています。

f:id:yoshihirokawase:20190912114705j:plain

囲碁 #囲碁AI #CNN  #ディープラーニング #アルファ碁 ♯人工知能 #価値判断 #認識 #哲学