2018年9月18日

サービス

音声対話システムが、ゲームを通じてユーザーの出身地を当てるまで

  • このエントリーをはてなブックマークに追加

出身地当てクイズとは、どんなゲーム?

ヤフーの会話型ボイスエージェントアプリ「Yahoo!音声アシスト」のシナリオライター・マスダです。先日のブログ(9月10日公開)で、サービスの概要をご紹介しました。

https://yahoo.jp/wKUlYu

当サービスで8月、新機能「出身地当て」クイズを実装しました。どんなゲームか、まずは私自身が試している様子をご覧ください。

アプリを起動して「出身地当て」と発話すると、下記のメッセージが表示されます。

「いくつか質問をすることで、あなたの出身都道府県を当ててみせます。やめたいときは「やめる」と言ってください。1個めの質問です。面積が広い?」→迷いなく、「はい」

「2個めの質問です。有名な温泉がある?」→迷いなく、「はい」

「3個めの質問です。おいしい牛肉が食べられる?」→迷いつつ、「はい」

「4個めの質問です。体調が悪いときに「えらい」と言う?」→迷いなく、「いいえ」

「5個めの質問です。人気のご当地キャラがいる?」→少し迷いつつ、「はい」

「6個めの質問です。おいしいカニが食べられる?」→迷いなく、「はい」

ここで、ついに!「出身地都道府県は兵庫県ですか?」→「いいえ」→「違いましたか。質問を続けますか?」→「はい」

「7個めの質問です。修学旅行先として人気?」→迷いなく、「はい」

すると!「出身都道府県は北海道ですか?」→「はい!」→「楽しかったです。また遊んでくださいね」

的中率は100%ではないが、ゲーム性を意識したクイズ!

 いかがでしょうか。一発で正解にならなかった理由、そして、「兵庫県」が出た理由は、おそらく「おいしい牛肉が食べられる」の設問でしょう。

 一般的にブランド和牛というと、兵庫県の神戸牛、但馬牛のほか、近江牛(滋賀)、松坂牛(三重)、米沢牛(山形)などが有名です。ただ、北海道でも牛の数は多く、ブランド化も進んでいます。知名度では劣りますが、「おいしい牛肉は食べられる」ので、影響が出そうと思いましたが、あえて胸を張って答えてみました。

 開発段階で、私も編集視点でのブラッシュアップに協力しました。その際、開発者のサノは、「ゲーム性を高めるために、主観で返答の変わりうる質問やより多くの都道府県に関連する質問の方が好ましい」と言いました。

 確かに「一番北にある」「道という漢字が入っている」「日本一面積が大きい」みたいな質問があった場合、一発で解答が確定しますが、それでは、奥行きがなくてつまらないですよね。

 回答に幅があって推理の余地が大きい。なおかつ、システムが学習して成長していくところがこのゲームの特徴だなと個人的には感じます。

開発者に聞く、新機能実装の狙いとは?

 どういう意図で開発したのか。本人に聞くのが一番ですから、担当者のサノに狙いを聞いてみましょう。

この機能の狙いとは?

「二つあり、ひとつはユーザーに楽しんでもらえそうなコンテンツの提供。もうひとつは、対話的なやりとりから適切な候補を選ぶシステムを音声対話で実現する上での課題の把握です」

後者はどんな実例があるのか?

「旅行先やレシピの推薦、症状から病気の診断など、さまざまな応用先があります。現在普及しつつある音声対話システムとの相性もよく、今後使われる機会も増えてくるはず。実現する上でどのような課題があるかを把握しておきたかったので、手始めに「出身地当て」クイズとして実装しました」

実装する上で、大変だったところは?

「先にも少し触れられましたが、ゲームとして楽しんでもらうための質問選びが大変でした。「道という漢字が入っている」のような確実に候補を絞り込める質問の方が用意しやすい上、出身地を当てやすくはなるが、その分当てたときのユーザーの驚きも少ない。自分一人では思いつく質問に限りがあるので、編集者に協力してもらい、質問を増やしました」

実装後、狙い通りだったところは?

「実装後たくさんの方に楽しんでもらえたのを数値(利用者数など)やユーザーの反応(出身地をうまくあてられた後に、「すごい」「楽しかった」などの好意的な発言をしてくれた)で見られたのは狙い通りで嬉しかったです」

逆に予想外だったところは?

「主に二つあり、ひとつは音声認識誤りが多かったこと。例えば、「いいえ」を「家」、「まあまあ」を「ママ」などと誤認識していました。もうひとつは間接的な回答も多かったこと。いろいろな言い回しを予め想定して対応できるようにしていて、例えば「うどんで有名?」という質問に対しては「はい」「そうでもない」「有名だと思います」「微妙」などを解釈できるようにしていました。しかし、「隣の県は有名」「たこ焼きなら有名」のように、間接的な回答も多かったのは想定外でした」

 確かに、この間接的な回答を見れば、ユーザーがそのように答えたくなる心理状況は納得できます。シナリオライターとしては、予測して技術者に事前に提示できていればという反省点ですね。

音声認識チーム担当者に聞く、辞書追加でシステムはどう変わる?

今度は、サノの依頼を受けて、システムに辞書を追加した音声認識チームの担当者フジタに話を聞きます。「Yahoo!音声アシスト」やヤフーの「音声検索」などの音声認識サービスに利用しているのは自社開発の音声認識エンジン「YJVOICE」です。開発にディープラーニングを導入して認識精度を大幅に向上させました。

https://about.yahoo.co.jp/pr/release/2015/05/19d/

音声認識ユーザー辞書の追加をすると、具体的にどんな効果が出るのか?

「現状の音声認識システムでは、認識可能な言葉は「語彙」としてあらかじめ登録されています。その中でも、認識しやすい単語、認識しづらい単語があります。前述のように「まぁまぁ」と「ママ」は発音が近いので認識間違いが起こりやすい例。ユーザー辞書機能を利用することで、上記のような認識誤りの傾向を正しい認識結果になるよう、ある程度コントロールが可能です」

ゲームの状況から会話の流れがある程度予測できますからね。つまり、実装後、サノが挙げた音声認識に関わる課題のいくつかが解消される可能性があると言えるでしょう。

ところで、サノの今回の開発目的には、次を見据えた研究の意図が読み取れました。実は、開発者のサノもフジタも、エンジニアであり、研究者でもあるのです。論文を読み、書きながら、それをサービスに落とし込むというミッションに挑んでいます。

大変なところややりがいは?

「音声認識技術は日進月歩で、毎年大量の研究論文が発行されています。それらをウオッチして、どの技術が有望か選り分け、そしてYJVOICEにとって有効かどうかを検証し、プロダクションへ投入する、この一連の流れは試行錯誤の繰り返しで、非常に労力がかかります。ただ、大変だからこそ、プロダクション投入できた時は嬉しいですね」

ヤフーの強みやメリットは?

「他の研究機関や企業ではなかなか持てない大量のデータと計算機環境があるので、それらをフル活用できるところでしょう」

ヤフーは国内有数のメディア、コマース、金融サービスなどを運営する裏側で、マルチビッグデータを蓄積してきました。

一方、計算機環境では、ディープラーニング活用に特化した省エネ性能の高いスパコン「kukai」を開発。YJVOICEでも「kukai」を活用した精度改善を目指し、試行錯誤中です。「kukai」は、2017年に発表されたスパコンの省エネ性能ランキング「GREEN500」で世界第2位を獲得!

「Yahoo!音声アシスト」では引き続き、これらの資産を有効活用して研究を続けながら、音声対話をUPDATEしていきたいと思います。

文:Yahoo!音声アシスト シナリオライター・マスダ
画像(音声アシストの画面以外):アフロ

Yahoo! JAPANでは情報技術を駆使して人々や社会の課題を一緒に解決していける方を募集しています。詳しくは採用情報をご覧ください。

  • このエントリーをはてなブックマークに追加