2009年6月 4日

テキスト解析

キーフレーズ抽出API の紹介

  • このエントリーをはてなブックマークに追加

こんにちは、日本語処理技術部の阿久津剛之です。

Yahoo!デベロッパーネットワークにて、キーフレーズ抽出APIを公開しましたので紹介します。

キーフレーズ抽出APIとは、与えられた文章から、その文章を特徴づける重要な部分(キーフレーズ)を抽出し、独自の算出方法により点数付けを行って返すAPIです。


例えば、「東京ミッドタウンから青山一丁目駅まで歩いて15分かかります」という文章をキーフレーズ抽出APIに与えると、


「東京ミッドタウン」「青山一丁目駅」「15分」


という結果が返ってきます。

ここで、「青山一丁目駅」に注目してみましょう。

「青山一丁目駅」は、日本語形態素解析APIを用いて解析すると、


青山 / 一 / 丁目 / 駅


の四つの語に解析されます。

しかし、これら四つの語は一般的な語であるため、
「青山一丁目駅」の方が例文を特徴づける重要な部分と言えると思います。


キーフレーズ抽出APIでは、文章を送信するだけで、文章内からキーフレーズの抽出を行います。

キーフレーズ抽出APIでは、以下の二つのパラメータが必要になります。

 ・appid(アプリケーションID)

  ※アプリケーションIDをお持ちでない方は、こちらから登録をお願いします。

 ・sentence(キーフレーズを抽出したい文章。文字コードはUTF-8)

リクエスト例

http://jlp.yahooapis.jp/KeyphraseService/V1/extract?appid=<あなたのアプリケーションID>&sentence=<対象のテキスト>

また、出力形式はデフォルトでXMLになっていますが、
PHPserialize,JSONP形式でも利用できます。

詳しくは Yahoo!デベロッパーネットワーク - テキスト解析 - キーフレーズ抽出 をご覧ください。


さて、キーフレーズ抽出APIを使ったゲームを考えました。

Yahoo!百科事典にある歴史的な出来事からキーフレーズを抽出し、抽出されたキーフレーズから出来事を当てる連想ゲームです。抽出結果の下位から一つずつ出していきますので、出来事を当ててください。


亀山城

京都府大山崎町

小栗栖

折檻

徳川家康

明智光秀

武田氏

宣教師ルイス・フロイス

信長

本能寺


10個のキーフレーズを表示しました。出来事がおわかりになりましたでしょうか?


答えは「本能寺の変」です。


文章内からキーフレーズ抽出APIを使うと、こんなゲームも作れます。

このほかにもいろいろな使い方ができると思いますので、みなさんもキーフレーズ抽出APIを使って、面白いアプリケーションを作ってみてはいかがでしょうか?



Yahoo!デベロッパーネットワーク - テキスト解析API

Yahoo!デベロッパーネットワークはこちら

APIをご利用前にアプリケーションIDの取得を忘れずにお願いします。
登録はこちら

Yahoo! JAPANでは情報技術を駆使して人々や社会の課題を一緒に解決していける方を募集しています。詳しくは採用情報をご覧ください。

  • このエントリーをはてなブックマークに追加