こんにちは、日本語処理技術部の阿久津剛之です。
Yahoo!デベロッパーネットワークにて、キーフレーズ抽出APIを公開しましたので紹介します。
キーフレーズ抽出APIとは、与えられた文章から、その文章を特徴づける重要な部分(キーフレーズ)を抽出し、独自の算出方法により点数付けを行って返すAPIです。
例えば、「東京ミッドタウンから青山一丁目駅まで歩いて15分かかります」という文章をキーフレーズ抽出APIに与えると、
「東京ミッドタウン」「青山一丁目駅」「15分」
という結果が返ってきます。
ここで、「青山一丁目駅」に注目してみましょう。
「青山一丁目駅」は、日本語形態素解析APIを用いて解析すると、
青山 / 一 / 丁目 / 駅
の四つの語に解析されます。
しかし、これら四つの語は一般的な語であるため、「青山一丁目駅」の方が例文を特徴づける重要な部分と言えると思います。
キーフレーズ抽出APIでは、文章を送信するだけで、文章内からキーフレーズの抽出を行います。
キーフレーズ抽出APIでは、以下の二つのパラメータが必要になります。
・appid(アプリケーションID)
※アプリケーションIDをお持ちでない方は、こちらから登録をお願いします。
・sentence(キーフレーズを抽出したい文章。文字コードはUTF-8)
リクエスト例
http://jlp.yahooapis.jp/KeyphraseService/V1/extract?appid=<あなたのアプリケーションID>&sentence=<対象のテキスト>
また、出力形式はデフォルトでXMLになっていますが、PHPserialize,JSONP形式でも利用できます。
詳しくは Yahoo!デベロッパーネットワーク - テキスト解析 - キーフレーズ抽出 をご覧ください。
さて、キーフレーズ抽出APIを使ったゲームを考えました。
Yahoo!百科事典にある歴史的な出来事からキーフレーズを抽出し、抽出されたキーフレーズから出来事を当てる連想ゲームです。抽出結果の下位から一つずつ出していきますので、出来事を当ててください。
亀山城
京都府大山崎町
小栗栖
折檻
徳川家康
明智光秀
武田氏
宣教師ルイス・フロイス
信長
本能寺
10個のキーフレーズを表示しました。出来事がおわかりになりましたでしょうか?
答えは「本能寺の変」です。
文章内からキーフレーズ抽出APIを使うと、こんなゲームも作れます。
このほかにもいろいろな使い方ができると思いますので、みなさんもキーフレーズ抽出APIを使って、面白いアプリケーションを作ってみてはいかがでしょうか?
Yahoo!デベロッパーネットワーク - テキスト解析API
Yahoo!デベロッパーネットワークはこちら
APIをご利用前にアプリケーションIDの取得を忘れずにお願いします。登録はこちら
こちらの記事のご感想を聞かせください。
- 学びがある
- わかりやすい
- 新しい視点
ご感想ありがとうございました