こんにちは。サイエンス統括本部の藤井・木田・宮原・坪内です。
ここ数年取り組んでいる「ムード推定」の最新の研究成果ならびに社内での活用事例を紹介いたします。ムード推定とは、ウェブ検索などインターネット上の行動履歴から人々の気分(ムード)を推測し、数値化して表せないだろうかという研究です。
(※この記事で紹介するムードに関する研究開発は、プライバシーポリシーの範囲内で取得したデータを用いて、個人を特定できない形で行っています)
はじめに
サイエンス統括本部の藤井です。IoTやスマートスピーカーなど、ちょっとだけ未来のプロダクトやサービスを担当しています。その中でもここ数年取り組んでいる「ムード推定」の最新の研究成果ならびに社内での活用事例を紹介させてください。
初めて「これからはユーザの感情に寄り添う時代がきますよ!」という坪内(後述の記事参照)の話を聞いたとき、「たしかに…? たしかに…!」と思ったのを覚えています。
というのは、感情は人間の行動に大きく影響しますよね。自分のことを考えてみても、いつも合理的に判断して行動している訳ではなく、例えば夜中にポテトチップスが食べたくなったり、旅行先で不思議なお土産を買ったり、気分やムードに左右されることがあります。むしろそのような行動の方が多いかもしれません。
インターネットサービスにおいても、もし人々のムードを考慮し寄り添えたなら、より魅力的なサービスができそうです。しかしヤフーはインターネットサービスの会社ですから、インターネットを通じてしかお客様と接点はありません。直接顔を見たり声を聞いたりせずに、ムードを推し量ることなんてできるのでしょうか?
それが、ある程度の推定はできそうだとわかってきました。
詳しくは去年の坪内の記事「新型コロナウイルスの影響で世の中の“ムード”はどう変わったのか?」 をご覧ください。このムードスコアを推定するアルゴリズムやモデルを研究・開発しているのが、Yahoo! JAPAN研究所と共同研究先の慶應義塾大学の大越研究室。その開発されたムード推定モデルを使ってスコア出力するしくみ作りを宮原や木田で担当しています。
ここからは木田と宮原に、ムードスコア分析の最新情報と、ムードスコアを出力するシステムについて解説してもらいます。
ムードスコア最新情報
木田です。現在新卒2年目で、ムード推定プロジェクトではバックエンド開発やデータ分析を担当しています。私は美味しいものを食べると辛いことも忘れて幸せな気持ちになります!
このパートでは先月発表した共同研究の最新の成果をまとめた論文「Nation-wide Mood: Large-scale Estimation of People’s Mood from Web Search Query and Mobile Sensor Data」 でも紹介している、ムードスコアを使った興味深い分析結果を2つご紹介します。
都道府県別のムード分析
昨年の記事「新型コロナウイルスの影響で世の中の“ムード”はどう変わったのか?」 では、日本全体の新型コロナウイルスの陽性者数の推移と日本全体のムードスコアの推移が逆の動きをするという結果をご紹介しました。 新型コロナウイルス患者が増えると日本のムードが下がる、という直感に合った結果でした。
ところで、新型コロナウイルスの患者数は地域ごとに大きく差が出ました。大都市やその周辺地域は陽性者が多かったように記憶しています。新型コロナウイルスの患者数が地域ごとに異なるなら、ムードスコアの変動も地域ごとに特徴があるかもしれない、ということで、今回は都道府県別に新型コロナウイルス陽性者数とムードスコアの変動を比較しました。下の図をご覧ください。これはムードの落ち込み具合と、新型コロナウイルスの感染者数の関係を示したものです。
横軸は、ムードスコアの落ち込み具合を示します。具体的には、全国で感染者がピークを迎えた2020年4月12日における、お正月三が日と比べたときの4月12日のムードスコアの比率です。縦軸は、同じ4月12日の新型コロナウイルス陽性者数です。これを都道府県ごとにプロットしたものです。お正月休みのムードと比べたときに4月12日のムードがより大きく下がった地域ほど左側に、新型コロナウイルス陽性者数が多いほど上側にプロットされます。
解析している私たちも驚いたのですが、右下から左上にかけた分布が見えます。
左上には新型コロナウイルス陽性者が多かった東京、大阪といった大都市やその周辺地域が並び、ムードスコアが大きく下がっています。右下には新型コロナウイルス陽性者数が一桁の地域が多く、そのような地域では比較的ムードスコアの落ち込みはほぼ確認できませんでした。日本全体でなく都道府県ごとに見ても、陽性者数とムードスコアは逆の動きをしていることがわかりました。
さらに、よく見ると上の図で茨城県は新型コロナウイルス陽性者数がそれほど多くはないにも関わらずムードスコアが大きく下がっています。なぜだろうと思い調べてみました。茨城県では2020年4月12日の深夜に震度4の大きな地震が起きていました。大きな地震が起きると、余震が起きないか不安になったり友達や家族は無事かと心配したりするかと思います。そうした不安な気持ちがムードスコアの大きな低下につながったのではと考えられます。
月曜日は必ずムードスコアが下がる!?
続いて、1週間のムードの浮き沈みの波を分析した結果をご紹介します。以前の記事で1カ月間の日本のムードスコアの平均の変動リズムをみると
- 休み明け(月曜日や祝日の翌日)はムードが下がる
- 土日祝日はムードが上がる
となっていた結果をご紹介しました。今回はもっと長い1年間のデータを使ってムードスコアの週での変動リズムを統計的に見てみましょう!
下の表は日本全体のムードスコアの1週間の変動リズムを統計化したものです。曜日ごとに前日のムードスコアと比べてムードスコアが上がる日が多かったのか、下がる日が多かったのかがわかります。(なお、祝日はムードスコアが上がる傾向が以前の調査からわかっているため、例外として計算から省いています。 )
なんと、対象となる46週すべてにおいて、月曜日は前の日曜日よりもムードスコアが低くなっていました! 1年間例外なく、すべての週においてです!ブルーマンデーという言葉もあるように、休日が終わってこれから仕事や学校が始まる月曜日はムードが下がってしまうのですね。また、金曜、土曜、日曜と週末に近づくにつれ前日よりもスコアが高くなる様子も見て取れます。
今年はムードの上がる傾向にある週末にクリスマスが待ち構えています。楽しいムードが漂ったクリスマスになりそうで、今から楽しみです^^
それでは、続きましてムードスコアを推定しているシステムについて宮原からご紹介します。
ムード推定エンジンの紹介
宮原です。私からは、ユーザのウェブ検索行動からムードスコアを推定し出力するシステム「ムード推定エンジン」の紹介をします。
(※ムード推定エンジンの開発はプライバシーポリシーの範囲内で取得したデータを用いて、個人を特定できない形で行っています)
Yahoo! JAPANの月間アクティブユーザ数は約8,400万人と、日本のインターネット利用者の8割以上が日常的に利用しています(出典)。
ムードスコアはユーザのウェブ検索行動のログを元にして毎日推定しており、非常に大規模な計算リソースや運用の仕組みが必要になります。また、これだけ多くのユーザのムードスコアの履歴を出力・蓄積するには、当然大規模なデータベースが必要になります。
そのため、大規模データの分散処理が可能なApache Hadoop(以降、Hadoopと記載します)を利用しています。膨大なウェブ検索行動のログの中から必要なデータのみを取得したり、抽出したログをムード推定モデルにあててスコアを算出したり…
ムード推定エンジンはApache Hive(以降、Hiveと記載します)ジョブ、MapReduceジョブなど複数のHadoopジョブから成り立っているため、ジョブの実行や管理は、Apache Oozie(以降、Oozieと記載します)というアプリケーションを利用しています。
最近はジョブ管理システムとしてApache Airflowを採用するケースも増えてきましたが、ヤフー社内においてはOozieのマネジメントはHadoopチームが行っているため、少人数でシステムを運用できるというメリットもあります。
ちなみにOozieはウージーと読み、ビルマ語で「象使い」を意味します。Hadoopのロゴは黄色い象なので、「象使い」という言葉はOozieの機能を上手に例えられているのではないでしょうか。
※Apache™ Hadoop®のロゴは、米国および/またはその他の国におけるApache Software Foundationの商標または登録商標です。
続いてムード推定エンジンの大まかな処理の流れを説明します。
- 最初に、ウェブ検索行動のログから必要なデータのみを取得し、中間データとして保存します。
- 取得したログにムード推定モデルをあててムードスコアを推定します。
- 最後に、推定したムードスコアのデータファイルをHiveのテーブルに変換しデータを扱いやすい状態にします。
いかがでしたか。このパートではどのようにムードスコアを推定しているのか、システムについて紹介しました。
最後に
この記事ではヤフーのムードスコアについて、最新の分析結果とスコア出力のシステムをご紹介しました。ヤフーユーザー全体のムードスコアを使うと、日本やその地域のことが見えてくる、データ分析ってとても興味深いですね。
ムードスコアの今後の展望としては、毎日のムードに加え、1ヶ月や2ヶ月単位での中長期のムードを捉えたいと考えています。 また、推定した「ムード」はその人の状態を推定したものですから、取り扱いには注意が必要です。 みなさんに寄り添ったサービスや情報をどのようにして提供していくか、慎重に検討を進めていきます。
なお、先日この研究が日本テレビさんに取材され番組で放送されました。その際、大越先生がインタビューを受けた動画をご紹介します。ムードスコアのしくみについて動画で分かりやすくまとめていただいていますので、こちらもぜひご覧ください。
(この記事に関連する採用情報「【R&D】ソフトウエアエンジニア」もぜひご覧ください)
こちらの記事のご感想を聞かせください。
- 学びがある
- わかりやすい
- 新しい視点
ご感想ありがとうございました
- 藤井 美晴
- プロジェクトマネージャー
- 新規領域プロジェクトを担当しています。
- 木田 景子
- エンジニア
- データ分析やシステム開発を担当しています。
- 宮原 聡子
- エンジニア
- システム開発やアプリ開発を担当しています。
- 坪内 孝太
- Yahoo! JAPAN研究所
- 人の行動ログに着目したデータ解析の研究に従事しています。