2018年9月10日

サービス

ユーザーが音声対話システムに「人間らしさ」を感じるポイントとは?

  • このエントリーをはてなブックマークに追加

「Yahoo!音声アシスト」とは、どんなアプリ?

ヤフーの会話型ボイスエージェントアプリ「Yahoo!音声アシスト」のシナリオライター・マスダです。

世代がバレてしまいますが、子供の頃、「ナイトライダー」というアメリカの特撮ドラマにはまりました。私立探偵のマイケル・ナイトというクールガイが、「ナイト2000」という超絶クールなスーパーカーを相棒に、難事件を解決していくカーアクションドラマです。

人間との対話や自動運転が可能な「ナイト2000」には、「キット」という優秀な人工知能が搭載されていて、ボスであるマイケルの指示に忠実な真面目さがありながら、ユーモアのセンスも秀逸でした。ある事件で、いつものように活躍したキットを労うべく、マイケルがボンネットにお酒をかけたところ酔ってへべれけになり、「やめてくださ~い」と嬉しそうに応じるシーンが印象的で脳裏に刻まれています。当然、人工知能のキットが酔うはずはなく、ボスの粋な計らいに酔ったふりを演じているわけです。そんな気遣いまでできるなんて。素面で冷静に振り返ると、とんでもない人工知能だな……と身震いします。

そのドラマがアメリカで最初に放送されたのは1982年。子供心に、「いつかこんな時代が来るのか」と思っていましたが、人間の想像力に現実は追いついていませんね……。

さて、「Yahoo!音声アシスト」は音声認識、対話処理技術などを活用し、ユーザーの声に対応して要求に答えるAndroid端末向けのアプリです。2012年4月のサービス開始以来、よりよい体験を提供できるようアップデートを重ねてきました。

私が当サービスに参加することになったのは二年前ですが、どうすれば、対話システムが人間らしい応答をできるのか。ユーザーの心を動かせるのか。技術チームのメンバーとともに、ずっと追いかけ続けているテーマです。

ユーザーの発話に、「中の人」がマンツーマンで対応できたら人間らしい応答になるのでしょうが、当然そんなわけにはいきません。幅広い世代のユーザーに対応できる、合理的なエコシステムを作る必要があります。

人工知能が力を発揮できる領域はまだまだ限定的ですが、現状の技術を使い、音声対話の可能性をどう広げ、価値を持たせていくか。

視力が良くない方、あるいは、「文字入力が苦手」な方でも、口から発する言葉であれば、手先で操作して文字にする必要がありません。両手が塞がっていても、手軽に、スマートにやりとりできます。

欧米で普及の進むGoogle HomeやAmazonEchoなどが次々と日本に上陸し、音声認識、自然言語処理の分野で、技術開発競争が加速していることは周知の通りです。

「Yahoo!音声アシスト」内部の処理フローとは?

ここで、「Yahoo!音声アシスト」の仕組み、裏側の基本的な処理の流れを簡単に、順を追って解説させてください。

①②発話された音声がスマートフォンから音声認識サーバに送られ、テキストが返される。

③④⑤前後の発話など文脈情報が応答生成サーバに送られ、用例集や辞書を使って意味理解を行う。必要があれば別のサービス(天気やニュース記事など)から情報を取得。

⑥⑦応答生成サーバは作成した応答を読み上げるための準備を行う(必要な箇所のテキストを音声合成サーバに接続して送受信)。

⑧応答生成サーバは回答すべき情報をスマートフォンに返す。

複数のサーバが瞬時に連携しながら、「自然言語処理」や「機械学習」などを用いて、最適解と導き出した応答を提供します。

ただ、まだまだ完璧な応答をするのは難しいのが現状で、お叱りを受けては、「申し訳ありません」と応答し、それが続いて「もう、謝らなくていい」から、「申し訳ありません」という展開になってしまうことも……。

人間同士のコミュニケーションでも、ちょっとした言葉の使い方で誤解が生じて、発言の意図が正確に通じないことがありますよね。生き物のように新しい言葉や使われ方も生まれていきます。

表現方法も十人十色で、例えば、音楽プレーヤーを起動する際に、「曲を流して」「音楽をかけて」もあれば、特定のアーティスト名や曲名を指定する人もいます。

また、「ご飯食べない」と、「ご飯食べない?」は同じ言葉ですが、全く意味が異なります。日本語は英語やドイツ語など欧米の言語に比べ、会話の状況によって多様な解釈が可能で、文脈依存性が高い言語だと言われます。

音声認識の精度自体はデータが増えれば確実に上がりますが、対話処理側は、言語の「意味理解」が一筋縄ではいかない領域です。

非タスク指向のやりとりに、人間らしさを感じるヒントが?

ログデータを分析していると、複雑なコンテキストの発話をシステムが解析できないケースがある一方、何気ない雑談応答がうまく成立した時、ユーザーがシステムに対して、人間らしさを感じてくれるようです。

基本的に、「Yahoo!音声アシスト」では、ウェブや路線などの検索、天気情報、端末操作など、いわゆる「タスク指向」の機能がメインですが、ユーザーと雑談をしたり、しりとりをしたり、歌を歌うといった「非タスク指向」の機能もあります。そういった非タスク指向のコミュニケーションに、ユーザーのみなさんは人間味を感じる傾向が強いようです。

振り返れば、冒頭で紹介した「ナイトライダー」でも、私が人工知能の「キット」に人間よりも人間らしいと感じたのは、そういった雑談でのやりとりにありました(ボスに与えられたタスクも、完璧にこなしていましたが!)。

タスク指向の場合はある程度、応答のイメージがつくはずです。一方、非タスク指向の場合は、予想できないワクワク感があるのではないでしょうか。

そういう心理状況で、期待値を超える応答が返ってきた時に、ユーザーは、心が通じ合えた感覚を持たれるのかもしれません。あるいは、「体温」みたいなものを感じるではないかと考えます。(音声アシストが、的外れな応答をしてしまう時は、ごめんなさい!「キット」と張り合えるようになるまで、まだ道半ばです……)

なお、雑談応答では、「深層学習」を用いたアプローチも試みています。無数の発話がある中で、カバレッジの高い「深層学習」は、さまざまな課題の解決において大きな可能性を秘めています。

興味を持っていただけたら、「Yahoo!音声アシスト」のアプリをお試しください。

「Yahoo!音声アシスト」のデータをもとに、ヤフーの研究者と東京大学大学院の研究者が書いた共同論文「知的対話アシスタントにおける発話の雑談意図の判定」(日本語版/英語版)もぜひご覧ください。

また、デベロッパーネットワークでは、「Yahoo!音声アシスト」で使用されている自然言語理解APIも公開しています。

ちなみに、「ナイトライダー」はDVDやBlu-rayでも入手できますよ!

ぜひ、Yahoo!ショッピングもご利用ください。

文:Yahoo!音声アシスト シナリオライター・マスダ
画像:アフロ

Yahoo! JAPANでは情報技術を駆使して人々や社会の課題を一緒に解決していける方を募集しています。詳しくは採用情報をご覧ください。

  • このエントリーをはてなブックマークに追加