セミナーレポート「多分野で応用される人工知能・音声対話技術」

セミナーレポート「多分野で応用される人工知能・音声対話技術」

最近何かと耳にする機会の多い人工知能(AI)技術ですが、ショーケース・ティービーとしても指をくわえて黙って見ているわけにはいきません。

今回は「音声認識」「意図解釈」「音声合成」の最新動向・最新事例を紹介するセミナー『ロボットだけじゃない! 多分野で応用される人工知能・音声対話技術』に参加してきました。

主催企業の「株式会社エーアイ」さんは音声合成に特化し、テクノロジーで創り出された“疑似声優”を世の中に送り出している、言わばその道の最先端企業。

また、ゲスト講演企業としてディープラーニングの側面から技術研究を行っている「フェアリーデバイセズ株式会社」さん、AIによる会話技術を追求する「Jetrunテクノロジ株式会社」さんの三社による合同講演になります。

最新ディープラーニングによる音声認識技術の実態

フェアリーデバイセズ株式会社さんによる講演テーマは『ディープラーニング技術に基づく音声情報処理技術の最新動向』。

今日ではスマートフォンで簡単に音声認識を実現しているかのように捉えられがちですが、技術の世界ではまだまだ発展途上段階という認識とのこと。無造作に会話の飛び交うを音声して認識することが今後の課題であり、実現するにはさらに高度な技術を要するのだそうです。

そもそも音声認識技術と一言で言っても、実際には以下のような4段階のプロセスに分かれています。
1:音声認識(マイクアレイ / フロントエンド)
2:声紋認証(音声特徴量)
3:異音除去(音響モデル)
4:音声処理(言語モデル)
これらを段階的にステップを踏んでいくとおっしゃられました。

かいつまんで言えば「人の声を認識」し、「音声の内容を認識」して、「会話としての成立する声をアウトプット」するということですが、どのステップにおいてもそれぞれ非常に困難で難解な壁があるというのです。

例えば「異音の除去」を行うプロセス3においては、現在の技術では異音と話者の声との認識を周波数帯域の波形の違いで判定していることがほとんどらしいのですが、近似ヘルツ帯の声を持つ複数人で会話をした途端、その精度が極めて悪くなってしまうのが現状なのだそうです。

かつてソフトバンクショップに立ち寄った際、淋しそうにしていたペッパー君に話しかけてみましたが、あまり話が噛み合わなかったことがありました。このまま会話のキャッチボールをしたところで、もはやコミニュケーションとして成立することはないだろうとその場を後にしてみたものの、会話の主を失ってもなお、ペッパー君は独演を続けていました。

恐らくペッパー君は、自分が話している間は雑音が入らないようマイク入力をオフにし、対話主以外の声(この場合は異音)をシャットアウトしているようです。

つまりコミュニケーションとは名ばかりで、ほぼ先行・後攻のような“ターン制”で会話をしているようなものでした。

現実社会における対人の会話では、相槌を打って相手との距離感を縮めることもあれば、若干食い気味な会話をすることで、相手に熱を伝えるといったコミュニケーションの取り方をすることがあります。

しかし、対機械との会話の場合は、音声を認識した上で判定することを必要とするため、対人のときのようなコミュニケーションの取り方が実現できていないようです。

講演内で特に関心を持ったのは「感情認識」の話です。

“覚醒度”という、いわゆる感情の度合いと、“ネガティブやポジティブ”といった気分の度合いの違いについてお話されていましたが、感情に関しては精度の高い認識が行えるそうですが、気分の認識にいたっては、まだまだ発展途上であるとのことです。

人はふとした一言や応対次第で、感情の起伏や気分の昇降が生じてしまう生き物でです。

人工知能に人間が自然と行っているような微妙なニュアンスの違いを汲み取らせることは困難であり、自分が出来ているのに人工知能は出来ていないという現実に、その開発者は歯痒い想いをしているのでしょうね。

次世代パーソナライジング

続いての講演は、AIエンジン、チャットボットプラットフォームを展開するJetrunテクノロジ株式会社さんです。

日々、人とロボットの対話をAIの観点から研究しているそうで、誰に対しても同じトーンで同じ話を展開する一般的な人工知能とは異なり、人のパーソナリティに応じて、応答内容を変える技術を開発しているとのことです。

少し専門的な内容が多いのかのように思えましたが、やはりここでも「感情」と「欲求」がテーマになっていました。

かつて、心理学者ロバート・プルチックが提唱した「プルチックの感情の輪」を軸に、人の感情を読み解くアルゴリズムを展開することを目的にしているとのことです。

心理学を専攻していなければチンプンカンプンですが、「感情の輪」を分かりやすく説明すれば、一般的に4つにカテゴライズされる“喜怒哀楽”をより細分化し、感情を情動というレベル感で表しているものだそうです。

下記URLを拝見する限りでは、情動のレベルの大小に応じて立体的に感情を表現できるという解釈もあるようです。
※参考サイト:プルチックの感情の輪

人工知能をより人間のそれに近づけようとすれば、当然ながら人間の精神領域も無視できないわけです。突き詰めれば突き詰めるほど、相当奥深い考え方が必要であることが理解できました。

また、チャットボットやレコメンド機能のAI化も自社製品として提供しているようでした。現段階での機能を然ることながら、この分野の“伸びシロ”を考えたら、まだまだこれから伸びていくような印象を持ちました。
人とロボットが違和感なく会話する、まるでSF映画の世界のような日も、そう遠くないのではないでしょうか?

他分野で応用される人工知能・音声対話技術

最後の講演は本セミナーの主催企業である株式会社エーアイさん。
彼らが提供する「AI Talk」という製品は、まさにロボット声優と言ってもいいぐらいのクオリティ! 人と会話しているのとそう変わらないレベルの製品でした。テキスト情報を元に、スムーズな音声出力を実現しています。

実はこのブログの読者の方々も「AI Talk」は体験していると思います。

先述のソフトバンクのペッパー君の喋り声も「AI Talk」。他にも災害アラートとして有名なJ-ALERTの音声通知の部分や、自治体の防災行政無線、某ゲームコンテンツ、イベントでのコンパニオン役などなど、誰もがどこかで耳にしているというぐらい広まっていました。

それでも人間的な音声というよりは、もはや“声”を発するので、言われるまでは気付かないかもしれませんが。

なお、日本テレビ系列で放映していた「マツコとマツコ」という番組で登場していたマツコ・デラックスのアンドロイド「マツコロイド」の会話部分のアルゴリズム、そしてサンプリングした音声出力なども、この会社の製品で行っていたとのことです。

また、地域限定的な話ではありますが、静岡新聞の「インコ式静岡新聞」というアプリにおいては、新聞原稿を「AI Talk」を実装したインコが読み上げてくれるサービスもあるようです。こんな楽しいアプリ、全国区でやってほしいと思ったのは僕だけなのでしょうか???

他にもたくさんの事例を紹介されていましたが、これだけ普及したことを考えれば、世の中のニーズにぴったりマッチした商品なんだと思いましたね。

音声技術の今後

これまでもアニメや映画などを通じて、「ロボットと人間のコミニュケーション」を見て育ったりしてきました。
そして未来に対して淡い期待と想像が膨らませて大人へと成長してきたわけですが、実際にペッパー君とのやりとりを目の当たりにして、ガッカリされた方もいらっしゃるのではないでしょうか?

Siriとのコミニュケーションにおいても、もはや「対話」というよりも「命令」しか出来ないことに、軽い失望と憤りを感じたこともあるかと思います。

今回の三社間で共同セミナーをされた背景には、「まるで異なる技術であっても組み合わせることで初めて、人としてまともに対話ができる人工知能を生み出せる」のではないかという提案がベースにあります。

まだ、“人としてまともな会話”というレベルには至っていないという見解のようですが、少なくともそれを実現させようとしている人たちの努力をまざまざと見せつけられたセミナーでした。

一度は失望したアニメや映画で見た“未来”への期待が、沸々と再燃してしまったのは言うまでもありません!

ぜひ、ショーケース・ティービーとしても、こうした時代の最先端を行く企業とタッグが組めるような商品を展開したいと考えています。人の血が通っているからこそ感じられる『おもてなし』を、AI技術によってWEBマーケティングに一石を投じる……。確実にそんな時代はやってきますし、実現させられるイメージはあります。

後はアイデアと行動力のみですね!

<参考サイト>
株式会社エーアイ http://www.ai-j.jp/
フェアリーデバイセズ株式会社 http://www.fairydevices.jp/
Jetrunテクノロジ株式会社 http://www.jetrun.co.jp/

コメント