ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

Voice User Interfaceのための音声認識技術の開発 〜スマートスピーカー試作機を用いた音声データ収集により精度向上を加速します〜

はじめに

im1 IoT時代におけるヒューマンインターフェースは、キーボードやタッチスクリーンなどの従来のTouch Interfaceから、声の発話によるVoice User Interfaceに置き換わっていくことが予想されます。

 そこでは従来のスマホでの近距離発話認識だけでなく、カーナビなど車内環境での遠隔発話認識、さらには宅内環境での遠隔発話認識によって、インターネットサービスを利用するシーンが当たり前に日常生活で見られるようになると考えています。

 弊社では今後も広くユーザーへ価値を提供をし続けるためにも、従来Touch Interfaceにこだわらず、音声や顔などの生体情報を活用したソリューションを生み出すため、基礎技術の研究・発展に力を入れています。

 本日はヤフーの音声認識エンジン「YJVOICE」開発チームの藤田より寄稿いたします。

ヤフーの音声認識エンジン「YJVOICE」

 ヤフーでは、2011年から、スマホ向けの音声認識エンジン「YJVOICE」を開発し、運用しています。2015年にDeep Learningを導入しており、すでにYahoo! JAPANアプリYahoo!乗換案内ヤフオク!(2018年10月よりiOS版で対応)などに組み込まれており、キーボードの代わりに文字を入力することができます。

 音声認識の精度が低いと使い勝手が悪く、非常にフラストレーションがたまるので、音声認識技術の開発チームでは精度の改善に日々精進しています。いろいろな方法で精度向上に取り組んでいますが、何より大事なのは音声データの量と質です。ヤフーでは先述の通りさまざまなアプリにYJVOICEが組み込まれており、日々大量のデータが収集されています。この音声データと開発チームの知恵と工夫により、YJVOICEは、乗り換え検索や検索ワード入力では実用レベルの認識精度に達していると思います。

今後のVoice User Interfaceに必要な音声認識技術とは?

 では、もう音声認識技術は完成されたものなのでしょうか? いいえ、まだまだ多くの技術的課題が残っています。その1つが、「遠隔発話音声認識技術」です。スマホと違って、マイクと口元の距離が数メートルの場合でも正確な音声認識を実現する技術です。これは、Voice User Interfaceをいろいろなシチュエーションで使える様にするために必須な技術と考えています。

 遠隔発話音声認識の難しさは、マイクと口元の距離が離れることで、以下の3つの要因により音声認識精度が大きく劣化することです。im2

  • 人の声と雑音(例えば、水道の音や料理の音、テレビの音声など)が混じってマイクで集音されてしまう
  • 声が部屋の中で響いてしまい、その響きもマイクで集音されてしまう
  • デバイス自らが発する音がマイクで集音されてしまう

精度を向上させるためには主に、im3

  • 雑音が混入した音声データを用いた音声認識モデルの学習
  • 複数のマイクロホン(マイクロホンアレー)を用いて特定の方向から到来する雑音を抑圧する

という2つのアプローチがあります。音声認識モデルの学習においては、多種多様な雑音が混入した音声データを大量に集めることが精度の向上につながります。また、マイクロホンアレーを用いる場合、多種多様な音声データでパラメータをチューニングすることで、精度の向上につながります。

ヤフーにおける遠隔発話音声認識への取り組み

 これまで、実験用のデータとして小規模な遠隔発話音声データ収録をウィークリーマンション等で行ってきました。そのデータを用いた音声認識モデルの学習およびマイクロホンアレーを用いた雑音抑圧により、一定の精度向上を確認しています。また、特にテレビなど他の人の声が混じっている場合に性能が大きく劣化することが分かりました。開発チームではこの課題を解決する新しい手法を考案し、12月に開催されるIEEE主催のワークショップ“IEEE Workshop on Spoken Language Technologies”に論文が採択されました。ウェイクアップワードとマイクロホンアレー処理を組み合わせ、他の人の声が混じっている状況での音声認識性能を改善する手法です。

 ただ、やはりさらなる性能改善にはマイクロホンアレーで収録されたリアルな音声データを大量に集めることが欠かせません。上記で紹介した手法も、大量のデータでモデルを学習することでさらなる精度向上が期待できます。

スマートスピーカー試作機を用いた音声データ収集

 しかし、マイクロホンアレーを利用して多種多様な雑音が混入したリアルな音声データを大量に集めることは容易ではありません。簡単にマイクロホンアレーから音声を収録できるデバイスは販売されていません。また、決められた原稿を読み上げるのではなく、家庭内にあるさまざまな雑音が混入した自然な発話を収録するためには、家庭内で呼びかけてもらえるデバイスである必要があります。そのため、今回、スマートスピーカーを試作して音声データ収集を加速し、精度向上を加速させることにしました。実際の家庭でマイクロホンアレーを搭載したスマートスピーカーを使ってもらい、家庭内にあるさまざまな雑音が混入したな音声データを収集します。

 収集した音声データはスマートスピーカーに限らず、スマホ等の遠隔発話音声認識技術の性能改善にも用いることができます。このデータ用いた研究開発により、遠隔発話音声認識の精度をさらに高め、自然言語理解技術(NLU APIとして公開)と組み合わせることで、より便利な音声UIを実現したいと考えています。

まとめ

 本記事では、ヤフーの音声認識技術の研究開発の取り組みを紹介しました。音声認識技術の開発チームでは、今後普及が見込まれるVoice User Interfaceに必須となる遠隔発話音声認識技術の研究開発を進めています。遠隔発話音声認識技術の開発にはマイクロホンアレーを利用していろいろな雑音が混入した音声データの収集が必要であることから、スマートスピーカー試作機を開発してデータ収集を行います。スマートスピーカーだけでなくスマホなどさまざまなデバイスで利用できる精度の高い遠隔発話音声認識技術を早期に実現し、便利なVoice User Interfaceを提供していきたいと考えています。

※試作したスマートスピーカーは今回の研究目的で開発された特別仕様のデバイスとなります。一般での販売予定はありませんのでご了承ください。

写真:アフロ

こちらの記事のご感想を聞かせください。

  • 学びがある
  • わかりやすい
  • 新しい視点

ご感想ありがとうございました

このページの先頭へ