ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

「ビッグデータで何かできない?」相談されたらアナリストが考えたいこと #ビッグデータ

Yahoo! JAPAN Advent Calendar 2019の8日目の記事です。一覧はこちら(外部リンク)

トップ画像

こんにちは、ヤフーでアナリストをしている池宮伸次です。
社内のサービスや広告、データソリューションサービスでの分析担当のほかに、部門の枠をこえてさまざまな分析相談を受けたり、ヤフービッグデータレポートの編集長を務めています。

Yahoo! JAPANビッグデータレポート
Yahoo! JAPANビッグデータレポート(Yahoo! JAPANコーポレートブログ内)
※9月に「ビッグデータ探偵団」という書籍も出ましたので、ご興味ある方はぜひ

このような働き方をしてると、次のような相談をものすごく受けます。

「ビッグデータで何かできませんか?」
「ビッグデータで面白いことしたいんですが」

アナリストのかたは、おそらく同じような質問を受けたことがあるのではないでしょうか?
ビッグデータってなんか凄そう、ビッグデータ使えば何か新しい発見ができそう、ビッグデータって万能そう......
しかし日々データに触れている人にとっては、ビッグデータにそんな神のような万能性がないことは百も承知ですね。

といってもせっかくのアドベントカレンダー。今回は上記のような要望にも対応できる(かもしれない)、私なりのデータ分析のアプローチ方法を書いていきます。

確認すべきたった一つのこと

「ビッグデータを使って何かやりたいんですけど」

そんなあいまいな質問を受けた場合、何をおいてもまず最初にこれを聞いてください。

最終的に実現したいこと(実現する必要があること)は何ですか?

すべてはこれに尽きます。これは上記のような漠々たる質問の時だけではなく、データを使ったあらゆる話に通じます。それはなぜか。
データとはとても融通が利かない存在です。このような機能を実現するためにはこのログが必要だ、とあらかじめ設計したうえで集めるものであって、後からあのデータが欲しいなと思ったとしても、そのデータを収集できている可能性は限りなく低いです。
そのため、その実現したいこと(目的)に合致したログが存在しない限り、手も足も出せないことが多く発生します。

逆に、絶対にやってはいけないことは
「こんなデータがあるんですけど何かできませんか?」
という相談に乗ってしまうことです。これはデータを扱っている人間の心をくすぐる悪魔のささやきでもありますが、安易に手を出してはいけません。その多くは必ず底なし沼に引きずり込まれることになるでしょう。

データが巨大である、付加情報がたくさんある、属性やアクション、リアルタイム性があるなどなど魅力的に見えるデータはたくさんあります、が、しょせんデータは特定の状態を表す、もしくは状態を記録することしかできないのです。
実現したいゴールが明確であればあるほど、必要なデータはおのずと決まってくるのです。ですので、最初に確認すべきことは「最後の姿」なのです。

どのような流れで分析を進めるか

実現したいことは理解できた、それを実現できそうなデータもある......
さてどこから考え始めればよいのでしょうか。

次に考えることは、価値の抽出方法、つまり「どうやって分析するか」です。
そして、こここそがセンスを問われるポイントでもあるのです。

すでにそのやりたいことを実現する仕組み自体がほかに存在している場合は、こちらを使えばよいですよ、で解決となりますが、往々にしてそうならないことがあります。
では、どうすればよいのでしょうか。実際の例にそって考えてみましょう。

ここに、少し前に私が書いたヤフービッグデータレポートの記事があります。

シフォンケーキの失敗理由をデータで解明? ビッグデータで簡単にユーザーの声を集める方法

このレポートを実現するに至った経緯をもとに分析思考手順を順に紐解いていきましょう。

ある時こういう相談を受けました
「とある商品についてユーザーが抱えてる不満を、ヤフーが持っているデータから抽出できませんか?」

このような問いかけを聞いたときに頭の中で何を考えるべきことは、まずは最後の姿とその目的の確認です。この時は
「特定の商品やサービス名を指定すると、ユーザーの不満やニーズが抽出されて、かつまとめ上げられたアウトプットが欲しい。なぜなら商品開発やサービス改善にそれを生かすことができるから」
ということでした。これでざっくりとではありますがやりたいこと、なぜやるのかが明確になりました。

次に、私の場合は上記の目的を達成するためにデータの側面から以下の要素をまず頭の中でリストアップし、実現可能かどうかを考えます。

  1. 不満の抽出を実現できるデータを保有しているかどうか
  2. データ量が分析に値するほどとれそうかどうか
  3. 実現するための手段をイメージできるかどうか
  4. アウトプットに必要な要素は何か

以上の点です。これを頭の中で考えて1から4までがきれいにイメージできた時はだいたい分析の最終系を大きく外すことが無いように思います。

順番に見てみましょう。

1. 不満の抽出を実現できるデータを保有しているかどうか

これは今回の記事でも最初にお話しした通り、目的に対してそれを実現できるデータがあるかないか、判断基準はそれだけです。
「不満」というものを抽出できそうなログデータというものがそもそもなければ分析はお手上げ、ここで終了です。気温に関するコンテンツを作りたいのなら気温のデータを持っていなければなりません。
自明の理でありがならも、ビッグデータという万能感あるフレーズに触発された人は、データで何でもできると思ってしまいがちです。

さて、ヤフーが保有しているデータで不満という要素がたまりそうなデータはあるのでしょうか?
あります。その一つがYahoo!検索の検索キーワードです。ヤフーはさまざまなサービスを運営しており、データ自体なビッグデータと呼んで差し支えないほど保有しています。その中でも検索キーワードの万能性は驚くべきものがあります。しかし、この話を掘り下げると今回の記事が終わらないので今日は端折ります。

繰り返しになりますが、実現したいことを実現するためのデータがそもそもあるかどうか、それこそがよい分析の最大のポイントであり、実施できるかどうかの最大の判断ポイントです。

2. データ量が分析に値するほどとれそうかどうか

意外と見落としがちですが、分析においてデータ量を確保できるかどうかはとても重要な点です。いざふたを開けてみたら全然データ量がない、なんてことはしょっちゅうです。目的にもよりますが基本的にはデータは多ければ多いほうがよく、少ないとそもそも分析に値しないことが多々あります。

しかし、ここはアナリストの腕で何とかなる場合もあります。
例えば、検索キーワードというのは検索窓に対して思いつく限りの言葉を入力できるので、意図は同じなのに言葉の少しの違いでたくさんの派生パターンを生んでしまい、それぞれの検索数自体は極めて小さいことがよくあります。 「シフォンケーキ」「膨らまない」という意図の検索をする場合、ほとんど同じ意図ですが次のような検索キーワードがたくさん発生します。

シフォンケーキ 半分 膨らまない
シフォンケーキ 内側が膨らまない
シフォンケーキがあまり膨らまない
シフォンケーキ レシピ 膨らまない
シフォンケーキ 一部が膨らまない
シフォンケーキ 失敗 膨らまない
シフォンケーキ ひび割れ 膨らまない
シフォンケーキ 焼き 真ん中 膨らまない
シフォンケーキ あまり膨らまない
......

これにさらに「紅茶」や「抹茶」といったキーワードが組み合わさったりすると、それはもう大変なパターンが発生するのです。これら一つ一つの検索数は少ないのですが、まとめ上げるとシフォンケーキが膨らまないということで悩んでいる人は少なくないことがわかります。
数が少ないように見えるデータであっても、うまくまとめ上げることできちんとニーズを抽出できるといったこともあるのです。
(※この結果の詳細解説については前述のレポート記事 をご覧ください)
なお、このやり方が100%完ぺきとは言いません。
この手法の考え方の根底にあるのは、単語の出現頻度が高いものはニーズが高い、つまり言葉が揺らぐ可能性が高くなる(パターン数が増える)、という考え方に基づいています。とはいえ、一手法としてはある程度参考になるのではと考えています。

検索キーワードの揺らぎパターン図

直球で取り組むとデータが足りなそうだけども、このように発想を変えれば解決できそう!みたいにひらめいた瞬間は、アナリストとしてとてもわくわくします。

3. 実現するための手段をイメージできるかどうか

ここです。数多くの分析をやってきたり見てきたりしましたが、いい分析と悪い分析はここで差が出ることが多い、というのが私の経験則です。
一口に手段といっても、本当にいろんな要素があります。データの抽出(全量とってくるのか、どの期間、要素が必要なのか、など)から始まり、クリーニング、フィルタ、分析手法、出力、加工まであらゆる要素がかかわってきます。ここの入り口から出口までをイメージできるかどうか、ここがすごく重要です。
分析のお作法でよく言われる"筋の良い"仮説立てを頭の中でイメージできるかどうかも大きなポイントとなります。

「ある商品についてユーザーが抱える不満」分析の質に大きな影響を与えるポイントは次の通りです。

  • データから不満の意図を持つ検索キーワードだけを抽出する方法
  • 大量に集まった検索キーワードの集合から頻度を集計する方法
  • 頻度が高い単語を羅列するのではなく意味(関係性)を持たせて見せる方法

まず「データから不満の意図を持つ検索キーワードだけを抽出する」方法が思いつかないと「シフォンケーキ」を含んだ検索キーワードすべてを対象に分析をしなければなりません。
しかし不満とは関係がない意図の検索キーワードのほうが圧倒的に多いため(参考図、シフォンケーキを含む第二ワードランキング)、全量を対象に取り組むのは無謀なチャレンジとなってしまいます。
ノウハウにあたる部分もあるため詳細にはお話しできませんが、検索キーワードからそのような不満や課題意図を表す言葉のみを抽出する方法を明確に描けるかどうかがまず大きな壁となります。

次に、先ほど紹介した「意図はほぼ同じだが言葉が揺らいでいる検索キーワード」をまとめ上げるという手段に算段を付ける必要があります。それができないと不満を表す検索キーワードが小さなデータとして点で散らばっているだけでしかなく、言葉を浮かび上がらせることができません。ここは形態素解析などの組み合わせにより解決します。

最後に「頻度が高い単語を羅列するのではなく意味(関係性)を持たせて見せる」については、言葉をあつめて特徴が高いものを抜き出した、だけの羅列ではそれを受け取った側は理解できません。見て理解が易い表現にまで落とし込むところまでを考えなければならず、可視化の手段はいくつか考えられますが、言葉のつながりを視覚的にとても分かりやすく表現できる共起ネットワーク(後述)が最適と判断しました。

このように、データから目的までのゴールまでの道筋とそのために解決しなければならない課題をイメージできるようになるにはどうすればいいのでしょうか。 上記の例、ぱっと見別々の課題の壁に対して解決手段を考えているように思えますが、最初から最後までひとつの流れとして考える必要があります。
やはりここは経験がモノを言うのは間違いないですが、手法もしくは結果にしか興味がない人はあまり向いていないと感じます。


つまり手法にデータや分析を合わせてしまう、または望む結果に合わせてしまいがちな人です。この場合、実現したいことが目的となっていてデータはそれを表現するための要素に格下げしてしまうことが多く、本末転倒となってしまい大体の場合は途中で行き詰まるのです。 よい分析ができる人は、データそのものに興味がある、もしくは価値を感じられる人だと感じます。
そしてそのような人は、データの前処理や加工といった単純作業や、そのデータがどのようなものなのか背景を知る手間を惜しまない傾向にあることが多い気もします。

4. アウトプットに必要な要素は何か

これは何かというと、結果をきちんと「伝えられるのか?」という点です。
求められる分析にもよりますが、多くの場合、データは最終的に人に伝える形にしなければなりません。その時に必要となるのが可視化です。
この可視化、意外と重視されていないことが多いのですが、どんないい分析もどんないい結果も可視化一つで伝わり方が大きく変わります。
伝えるためのイメージまで最初の段階で想起できるようになるととても素敵です。

これも同レポートの事例を絡めて紹介しましょう。
1〜4を経て実際の共起ネットワークを作成しました。こちらはKH coderというツールを利用させていただきました。

共起ネットワーク図

共起ネットワークとは特徴語間の間に持つ関係性を可視化する手法です。簡単に言えばつながっている言葉同士はともに出現する可能性の高い言葉ということです。
これを見れば一目瞭然、シフォンケーキにどのような失敗のパターンがあるのか、ネットワークがつながったところをみると何となく見えてくるのではないでしょうか?
頻度が高い順に言葉を羅列してもきっとこの図のようにわかりやすく伝えることは困難だったでしょう。このようにアウトプットとしてデータをどうやって可視化すると相手に伝わりやすくなるのかまで考えられると素敵です。

データから得る価値の考え方

今回、もう一つだけ覚えていただきたいことがあります。それはデータ分析の結果に対する捉え方です。

多くの人はデータを使った分析、特にビッグデータと聞いた場合には、その結果は人間が予想もしない結果をもたらすものだ、と無意識に期待しがちです。
つまり、事前に想像していた通りの結果が出た場合、もしくは比較したうえで差が出なかった場合などに「何も得られなかった」と考えてしまう人がいます。
しかし、それは大間違いなのです。

当たり前の結果=感覚的に当たり前とされていたことがデータから裏付けられた
差が出なかった=AとBには差がないことがデータから裏付けられた(もしくは複合的な影響によりトータルとして差がでなかった)

という価値を得たのです。ビッグデータを活用するということはなにも過去の概念を覆すような発見を求めるものではなく、当たり前のことがデータにより数値に置き換えることができた、ということだけで大きな価値となるのです。そして、そう考えられる人こそがデータ分析にとても向いている、というのが私の考えです。

ぜひ皆さんも正しいデータ分析アプローチで、地道で楽しいアナリシスライフを!

こちらの記事のご感想を聞かせください。

  • 学びがある
  • わかりやすい
  • 新しい視点

ご感想ありがとうございました


池宮 伸次

データアナリスト

検索キーワードが三度の飯より大好きです

このページの先頭へ