AI人工知能EXPO 参加メモ その2 (iFlytek) 印象に残ったのは Huawei/iFlytek/SenseTimeの中国勢だったその訳は。

iFlytek

iFlytekは音声認識の中国トップ企業です。セミナーを聞きました。

最初に自動翻訳機のデモがあった。小型の音声レコーダのようなものに、講師が中国語で話しかけるとすぐに聞きやすい自然な日本語に翻訳されて聞こえて来た。これだけなら「ふーん、いいね。東京オリンピックの時に中国人が持っていると便利だろうな。」で終わるんだろうけれど、ここからが凄かった。

ビデオのプレゼンが始まり、オバマが英語でスピーチをしている。その後オバマオバマの声そのままで今しゃべった内容を中国語でしゃべっている。えーっという感じ。でも、音声と口の形があっていないので偽物とわかる。

それを見せられたた後、今度は中国人が中国語でしゃべったものを英語で翻訳再現する時に発語と口の形がぴったり合ったもの(リップシンクと言います)を見せられた。これはちょっとびっくりした。なぜなら、リアル感がとってもあるから。

これができればフェイクニュースビデオを作ってSNSで流し、人々をだますこともできる。年初のMIT テクノロジーレビューの記事を読んで、iFlytekの本社の受付では、トランプ大統領が中国語でiFlytekの技術をほめるビデオ映像が流れているということを知っていたが、それはどういうことなのかこのプレゼンを見て初めて得心できた。

次に、iFlytekの技術が外国人との会議の仕方を劇的に変える例が示された。

会議室にiPadのような端末を置く。その端末は壁に据え付けられた大画面モニタとつながっている。その画面は上下に2分割されていて、中国人がしゃべった中国語が上に、翻訳された英語が下にほぼ時を置かずして表示される。米国人が英語でしゃべっても同様に2か国後が表示される。さらに端末はすべての発言と翻訳を記録していて、その要約を中国語でも、英語でも作れる。会議が終わると人間が端末上でその要約の必要な部分を選んで報告書のテンプレートにドラッグすると議事録が出来上がる。

これはすばらしい働き方改革になる。これは遠隔地との電話会議でもできると思われる。その場合はデータはクラウドに置いて、通信は大容量で遅延の少ない5Gが必要だろう。

この技術がもっと進めば、ネット上のバーチャル会議室に世界中のメンバーがVRで参加する形にビデオ会議が変わる。同時通訳のAIを介して他国のメンバーのアバターと自国語でしゃべる会議になる。日本人にはメンバー全員が日本語でしゃべっている会議になり、フランス人には全部フランス語での会議になる。

カメラでメンバーを撮影するビデオデータも付け加えれば、参加者の表情や身振りをアバターに反映してリアリティがさらに上がる。AIによって音声認識と翻訳の精度とスピードが上がってくると世の中が変わることがまじまじと想像できる。

ここで大事なことは、その技術をフェイクニュースのような悪事に利用しないこと。そして、その歯止めをどうするかになる。

そこは発表者もわかっていて、データバンクの管理体制、AIの判断ループの中に人間がいること、AIに勝手に独り歩きをさせないこと、AIは人間が管理して、人間の活動を支援するものであるということを何度も強調していた。

音声認識が翻訳と結びつくことで、言葉の壁をこえて人間同士がよりスムーズに協調できる。さらに映像とのリップシンクを取ることで、サイバーとリアルの境目がより曖昧になって、バーチャルなものが人の感情や行動に大きな影響を与える。そういった大きな変化に向き合う時代がもうそこまで来てることを実感したプレゼンであった。

ここまで書いてきて、石黒浩先生のアンドロイドの研究を思いだした。

https://www.nishogakusha-u.ac.jp/android/index.html

夏目漱石そっくりのアンドロイドロボットが漱石のご子孫の声から合成した、漱石の声と思われる音声で漱石の小説を朗読すると、みんな涙を流すほど感動して聞き入るという。

石黒先生は、見ているものがロボットという偽物であってもそれがリアルさを増せば増すほど、それを見ている人の心象へのインパクトがより強まる、だから、実体は観察者の心象の中にあると言う。私は、ロボットという実在の物体がVRの中のバーチャルな映像に代わっても、音声のリアリティが付け加わっていると同じことになると思った。

音は音圧として鼓膜や体で感じる物なので、映像よりもナマ感が強いんだと思う。絵画や彫刻は完成品を見て理性で感動する感じがあるけれど、音楽は時間の流れの中で演奏とともに全身が高揚する、共同した感動がある。

歌とダンスは連携するように、音声入力は感情を通して行動を起こさせる力がある。だから演説の意味がある。このように、見るよりも聞くことの方が人への影響力は大きいのではないかと思い始めた。事件に遭遇した時、人はその情景よりも「バーンという大きな音がした」などと、聞いた印象を話すことが多い。

さて、AIに話を戻そう。過去に大きな影響力を持った人物が、本人そっくりのリアリティを持ったアバターとなってVR空間に出現し、その人物の過去の思考や行動を学習したAIが人々の問いかけに対してリアルな声で発言すると、その発言は世の中に影響を与えるだろうか。

最初はジョークと思っていても、だんだん賛同を得て大きな社会的うねりを作りだすかもしれない。AIが音声合成や画像合成の技術と結びついて人間の心に直接訴えかける形を取った時に、それはもうリアルなものとしてわれわれに迫ってくると思う。

そういった技術が政治的に悪用されないよう、それこそ人間がAIを管理しなくてはいけない。でも権威の言いなりになりたい人々も一定数いるだろうから要注意ですね。人間がやるよりAIの方がうまいよ、というのは最適物流ルートの選定や投資信託ポートフォリオ作成のような事はいいだろうけれど、どこで線引きするかは技術が進めば進むほどわからなくなる気がする。

そんなことを考えさせられるプレゼンでした。

 #AI    #人工知能 #AI人工知能EXPO #iFlytek   #音声認識 #石黒浩 #アバタター