ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

iPhoneアプリ「音声検索」

こんにちは、音声検索アプリ担当です。

3月16日に、Yahoo!ラボから、iPhoneユーザーが声で検索を行えるアプリ「音声検索」をリリースしました。
Yahoo! JAPANの、ウェブ検索をはじめとするさまざまなサービスから、音声認識による検索ができます。
使い方、しくみなどをまとめましたので、ご紹介します。

「音声検索」アプリの機能は?

iPhoneで検索したいとき、ふつうはソフトキーボードから検索したい言葉を入力します。
このアプリを使ってマイクロホンから検索したい言葉をしゃべると、その声をアプリが自動的にテキストに直して検索を行って、その結果を画面に表示してくれます。

Yahoo! JAPANではウェブ検索だけでなく、画像や地図など対象を絞った検索サービスを用意しているので、このアプリでも画面左上の虫眼鏡ボタンを押して検索モードを選ぶことによって、目的をしぼった検索が行えます。

しゃべれる言葉はウェブ検索で使われる言葉はなるべく網羅できるように作っています。
また全国の住所や駅名なども含めるようにしているのでお試しください。
とくに「路線」モードを選んで、「東京から六本木まで」のようにしゃべると路線検索をしてくれるのは便利だと思います。
「東京駅から六本木」のように「駅」をつけたり、「から」や「まで」を省略しても大丈夫です。
あと「東京から六本木まで、終電」のように「始発」や「終電」も声で調べられます。

どんなしくみで認識しているのですか?

iPhoneに向かってしゃべると、その声をヤフーのサーバーに送って、そこで音声を認識して結果をテキストとしてiPhoneに送り返しています。
アプリではそのテキストを使って、ウェブ検索などを行い、検索結果を画面に表示しています。

サーバーでの音声認識は、あらかじめいろいろな検索でよく使われる言葉を「辞書」に登録してあり、iPhoneから受け取った声をその「辞書」に含まれている単語の組み合わせとして解釈します。
ですから「辞書」に登録されていない言葉は正しく認識することができず、音が似ている別の単語に間違えてしまうことがあります。
また、とても珍しい言葉や急に新しく使われるようになってきた言葉は、辞書の登録が間に合わず、認識できない場合があります。
サーバー側ではできるだけ新しい言葉の増加に追いつけるように定期的に辞書の更新を続ける予定です。

音声認識はまだ完璧な技術ではないので、きちんと発声しているにも関わらず、うまく認識されないこともあると思います。
そのような場合は、口とマイクロホンの位置を少し変えて言い直してみると有効な場合があります。
口が近すぎて音が割れてうまく認識されない場合や、逆に遠すぎて周囲の雑音を拾って間違えてしまうこともあります。
もう一つの注意点は、マイクロホンボタンを押してからしゃべりだすまでに時間が空くと、やはり周囲のしゃべり声や雑音で誤動作することがあります。
このような配慮をしていただいても「どうも正しく認識されない」という場合は、アプリ画面の右下のボタンを押して表示されるメニューから「誤認識を報告」というボタンを選んで押していただければ、サーバーのログに残るので、開発チームにて調査を行います(短期的に改善できるとまではお約束できませんが)。

アプリ開発で苦労したことがあれば、教えてください

ユーザーができるだけ簡単な操作で使えるようにデザインするのに試行錯誤も含めて苦労しました。
声で検索させるためには、iPhoneのマイクロホンから声を入力しなければなりません。 ユーザーの視点からはアプリを起動すると、アプリがつねにマイクロホンからの音を聞いていて、ユーザーが検索したい言葉をしゃべったら自動的に検索するのが望ましいのは言うまでもありません。
しかし今の音声認識技術では四六時中まわりの音を受け付けて、そのなか中からユーザーのしゃべった検索語だけを取り出すのは容易ではありません。
まわりの人の話し声やテレビの音、BGMにも反応してしまい、使いにくいものになってしまいます。

そこでしゃべる直前にユーザーにマイクロホンボタンを押してもらって、それ以降の音だけを音声認識するようにしました。
できるだけ検索結果の表示領域を減らさずに、かつiPhoneを片手で持った場合でも親指でボタンを押しやすいように、画面下中央の位置に配置しました。
さらにしゃべる前だけボタンを押せば、しゃべり終わりはアプリが自動的に検知して録音を止めるようにしました。
しかしまわりがさわがしい場所などではしゃべり終わりの自動検知が失敗することもあるので、終わりにボタンをもう一度押してもらうのが確実です。

マイクロホンボタンを押して、ユーザーの声を処理する準備ができたら画面に時々刻々マイクロホンから入ってくる音の波形を大きく表示するようにしています。
この画面の波形の大きさはユーザーの声の大きさを表しており、声が大きすぎたり小さすぎたりしたときに、それに気がついてもらうのにも役立つことを期待しています。
しゃべり終わった後でマイクロホンボタンをもう一度押してもらう場合に、押しやすいように逆三角形の吹き出し「入力終了」を大きく表示して、その吹き出しを押してもボタンを押したことになるようにしました。
もうひとつ画面中央上に小さくキャンセルのボタンが表示されています。
これは通信状況が悪い場合などにサーバーからの応答がなかなか返ってこない場合に、一度キャンセルしてやり直せるように用意したボタンです。

マイクロホンボタンを押す代わりに、iPhoneを通話時のように耳に近づけると自動的に音声認識をはじめる機能も組み込みました。
わざわざマイクロホンボタンを押さなくてもよいのと、周囲から見ると通話しているように見えるので、音声検索を使用する場合の気恥ずかしさを減らす効果もあるかもし知れません。
さらに実験的な機能としてはiPhoneを軽くシェイクすると音声認識をはじめる機能も加えてみました。

このように複数の入力手段を用意することによって、自分にあった入力手段を選んで使い続けていただける助けになればと考えています。

おわりに

音声による入力は携帯電話のあたらしい入力手段として今後ますますポピュラーになることを期待しています。
最初は気恥ずかしい気持ちや、誤認識が気になることがあると思いますが、使い慣れるとソフトウエェアキーボードとはまた違った利便性が得られるものと信じています。
ヤフーでもひきつづき音声入力を利用していろいろなサービスやアプリをもっと便利にするべく努力していきたいと思います。

こちらの記事のご感想を聞かせください。

  • 学びがある
  • わかりやすい
  • 新しい視点

ご感想ありがとうございました

このページの先頭へ