ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

キーフレーズ抽出API の紹介

こんにちは、日本語処理技術部の阿久津剛之です。

Yahoo!デベロッパーネットワークにて、キーフレーズ抽出APIを公開しましたので紹介します。

キーフレーズ抽出APIとは、与えられた文章から、その文章を特徴づける重要な部分(キーフレーズ)を抽出し、独自の算出方法により点数付けを行って返すAPIです。

例えば、「東京ミッドタウンから青山一丁目駅まで歩いて15分かかります」という文章をキーフレーズ抽出APIに与えると、
「東京ミッドタウン」「青山一丁目駅」「15分」
という結果が返ってきます。

ここで、「青山一丁目駅」に注目してみましょう。

「青山一丁目駅」は、日本語形態素解析APIを用いて解析すると、
青山 / 一 / 丁目 / 駅
の四つの語に解析されます。

しかし、これら四つの語は一般的な語であるため、「青山一丁目駅」の方が例文を特徴づける重要な部分と言えると思います。

キーフレーズ抽出APIでは、文章を送信するだけで、文章内からキーフレーズの抽出を行います。

キーフレーズ抽出APIでは、以下の二つのパラメータが必要になります。

・appid(アプリケーションID)
※アプリケーションIDをお持ちでない方は、こちらから登録をお願いします。

・sentence(キーフレーズを抽出したい文章。文字コードはUTF-8)

リクエスト例

http://jlp.yahooapis.jp/KeyphraseService/V1/extract?appid=<あなたのアプリケーションID>&sentence=<対象のテキスト>

また、出力形式はデフォルトでXMLになっていますが、PHPserialize,JSONP形式でも利用できます。
詳しくは Yahoo!デベロッパーネットワーク - テキスト解析 - キーフレーズ抽出 をご覧ください。

さて、キーフレーズ抽出APIを使ったゲームを考えました。

Yahoo!百科事典にある歴史的な出来事からキーフレーズを抽出し、抽出されたキーフレーズから出来事を当てる連想ゲームです。抽出結果の下位から一つずつ出していきますので、出来事を当ててください。

亀山城
京都府大山崎町
小栗栖
折檻
徳川家康
明智光秀
武田氏
宣教師ルイス・フロイス
信長
本能寺

10個のキーフレーズを表示しました。出来事がおわかりになりましたでしょうか?

答えは「本能寺の変」です。

文章内からキーフレーズ抽出APIを使うと、こんなゲームも作れます。
このほかにもいろいろな使い方ができると思いますので、みなさんもキーフレーズ抽出APIを使って、面白いアプリケーションを作ってみてはいかがでしょうか?

Yahoo!デベロッパーネットワーク - テキスト解析API
Yahoo!デベロッパーネットワークはこちら
APIをご利用前にアプリケーションIDの取得を忘れずにお願いします。登録はこちら

こちらの記事のご感想を聞かせください。

  • 学びがある
  • わかりやすい
  • 新しい視点

ご感想ありがとうございました

このページの先頭へ