2009年3月 9日

テキスト解析

日本語係り受け解析APIとマッシュアップ

  • このエントリーをはてなブックマークに追加

サービス統括部のS・Kと申します。


前回お送りしました「日本語形態素解析APIとマッシュアップ」に続きまして、
Yahoo! JAPANが提供するWeb APIの中でも難解であろう「日本語係り受け解析API」を
前回と同様、皆様のマッシュアップにお役立ていただけるよう
なじみの薄い自然言語処理用語の解説と共に分かりやすくお伝えできればと思います。


まずは、前回のおさらいです。


形態素解析は日本語の文を言語として意味を成す最小単位の「形態素」に分ける解析処理でした。
そして、日本語形態素解析APIは「形態素」に分け、合わせて「品詞」情報が取得できましたね。


係り受け解析は、その形態素解析処理を元にさらに一歩踏み込んだ情報の解析をします。


それは、、、


「文節」の係り受け関係が分かるのです!
といっても、いまいちよく分かりませんね。


まず、「文節」とは文の中で「ね」(終助詞)を挟むことが
出来るかどうかで切れ目として分かれるところを判断するというのが一般的です。

たとえば、「うちの庭には鶏がいます。」を文節に分けると

「うちの」ね「庭には」ね「鶏が」ね「います。」

の4つの文節に分かれます。


ここでようやく係り受け解析の出番です。解析結果は以下のとおり。
文節が矢印の先の文節にかかっています。

「うちの」→「庭には」
「庭には」→「います。」
「鶏が」→「います。」

こんな機能が何に使えるの?と疑問に思う方も多いかと思いますので、


ここまでの基本的な部分を踏まえて、今回はマッシュアップという観点から使い方を見てみましょう。
例として、以下の文を使って日本語係り受け解析APIの結果を見てみます。

「美味しいラーメンが食べられるところを知っていますか?」

この文をリクエスト用にUTF-8でエンコードしたものを「sentence」に持たせます。

http://jlp.yahooapis.jp/DAService/V1/parse?appid="あなたのアプリケーションID"&sentence=%E7%BE%8E%E5%91%B3%E3%81%97%E3%81%84%E3%83%A9%E3%83%BC%E3%83%A1%E3%83%B3%E3%82%92%E9%A3%9F%E3%81%B9%E3%82%89%E3%82%8C%E3%82%8B%E3%81%A8%E3%81%93%E3%82%8D%E3%82%92%E7%9F%A5%E3%81%A3%E3%81%A6%E3%81%84%E3%81%BE%E3%81%99%E3%81%8B%EF%BC%9F
※アプリケーションIDの取得はこちら


結果を見てみますと、文節は5つに分かれました。

第1文節:「美味しい」
第2文節:「ラーメンを」
第3文節:「食べられる」
第4文節:「ところを」
第5文節:「知っていますか?」

文節の係り受け関係はシンプルな以下の形となります。

第1文節:「美味しい」→「ラーメンを」
第2文節:「ラーメンを」→「食べられる」
第3文節:「食べられる」→「ところを」
第4文節:「ところを」→「知っていますか?」
第5文節:「知っていますか?」

さらに、文節は形態素で構成されており、日本語係り受け解析APIの結果にも以下の形態素解析の結果が含まれます。

第1文節:「美味しい」・・・「形容詞」
第2文節:「ラーメン」・・・「名詞」、「を」・・・「助詞」
第3文節:「食べ」・・・「動詞」、「られる」・・・「助動詞」
第4文節:「ところ」・・・「名詞」、「を」・・・「助詞」
第5文節:「知っ」・・・「動詞」、「て」・・・「助詞」、「い」・・・「助動詞」、
      「ます」・・・「助動詞」、「か」・・・「助詞」、「?」・・・「特殊」

さて、前回の「日本語形態素解析APIとマッシュアップ」では、品詞情報から文の意味をとらえようとしました。
今回は文節の係り受け関係に加え、形態素解析の結果も取得できています。
より文の意図をとらえる情報がそろっているのです。

ここで、第1文節と第2文節に着目してみましょう。
文節の係り受け関係は「美味しい(形容詞)」が「ラーメン(名詞)を(助詞)」に係っています。

第2文節の助詞を除いて考えると、「美味しい」が「ラーメン」に係っていることになります。
もし、「美味しい」が「まずい」などのほかの形容詞であったりしたら文の意味は変ってきますよね。


そろそろ、お分かりいただけたかもしれません。
この場合は名詞に係る形容詞から評判に近しい情報と判断できます。


マッシュアップという観点からの活用を考えると、例えばこういうのはどうでしょう?

・検索結果のスニペットを係り受け解析し、検索された名詞に係る形容詞を抽出して、その形容詞から評判をはかる
・関連検索キーワード以外の語のつながりを視覚化したタグクラウド

などなど。


形態素解析の結果には、人名を識別する詳細な情報も含まれますので
インターネット上で語られるその人の評判も抽出できるかもしれません。

ポジティブな形容詞やネガティブな形容詞を別にデータベース化して付き合わせれば、
解析された文が明るい話題か暗い話題かも、ある程度判断できるようになります。

もちろん、精度を高める為には高度な自然言語処理の知識が必要になりますが、
簡易的なもの、面白いマッシュアップなど、使いどころはたくさんあります。

自然言語処理の係り受け解析の利用方法としては、このほかにもたくさんありますので、
ご興味のある方は調べてみるのも良いでしょう。


最後に、この一風変った「日本語係り受け解析API」の強みのお話をさせていただきます。
自然言語処理に詳しくない方のため、はしょって説明いたしますと、

一般の開発者の方には、少々伝わりづらいかもしれませんが、
弊社が提供する「日本語係り受け解析API」のほかにも係り受け解析器は存在しており、
一般的なそれらは新聞などの整った文の解析に強いですが、
ウェブ上にあるブログなどの整っていない文の解析に関しては苦手としています。

弊社の「日本語係り受け解析API」は、ほかの係り受け解析よりも
そのようなウェブ上にあるブログなどの文での解析精度が高いことを強みとしております。


テキスト解析という、世界的に見ても珍しいWeb APIを提供している弊社ですが、
これらは日本国内において、自然言語処理の高い技術力と理想的な研究環境がもたらした結晶といえます。


日本語係り受け解析APIは皆さんの優れたアイデアを後押しします!
お役立ていただければ幸いです!!


Yahoo!デベロッパーネットワークはこちら

アプリケーションIDの登録はこちら

>>「日本語形態素解析APIとマッシュアップ」へ

Yahoo! JAPANでは情報技術を駆使して人々や社会の課題を一緒に解決していける方を募集しています。詳しくは採用情報をご覧ください。

  • このエントリーをはてなブックマークに追加