ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

ビッグデータを用いて「街の欲求」を可視化するアートの裏側

Yahoo! JAPAN研究所の坪内です。7/19-7/21の3日間限定で、ヤフー社内のLODGE STUDIOにて、「CityAtmosphere:VR image to glimpse wishes in the air」の展示イベントを開催しました。イベントは盛況で、300名を超える多くの方に体験いただきました。

単語で作られた秋葉原の町

この記事では、

  • どういうアート展示か?
  • どうやって実現できているか?
  • これはなんのためにやっているのか?

という3つの疑問にお答えできたらと思います。

どういうアート展示か?

体験いただく方にはVRゴーグルをかけていただきます。 目の前に現れるのは皆さんがどことなく見慣れた街の風景(秋葉原、新宿ゴールデン街、渋谷)。
しかし、クリアな写真や動画ではなく、どことなく、ぼやけた街...これは実は小さい単語の集合で作られた街なのです。
VRをつけた人と単語で作られた街
さらに、どこからともなく聞こえてくる雑踏に混じる言葉のつぶやき...これも実は街を形成する単語を読み上げているのです。
新宿を作り出している単語
これらの単語を街に潜む"欲求"として、そこに埋没される体験をVRを通じて味わっていただこう、それが今回のアート展示です。

どうやって実現できているか?

このアート展示の実現に重要になってくるのが、街を形作るドット(=単語)の選定方法です。
単語を見た人に「ふーん」「そりゃそうでしょ」と思われるのも、「全くイメージが沸かない」と思われるのも失敗です。
「しっくり来た!」というものの中にスパイス的で「へえこういうのもあるんだ! 意外!」という単語が混ざっている、これくらいをわれわれは目指しました。
街を作る単語

対象エリアを選定した後のステップは3つです。

  1. 対象エリアに一定時間いたユーザーを抽出する。
  2. そのユーザーが対象エリアにいる時間前後の検索クエリ(= 単語)を抽出する。
  3. 集まった検索クエリから、「その地域らしいクエリ」を基準にスコア化する。

です。

1.対象エリアに一定時間いたユーザーを抽出する。

まずは、ユーザーの位置情報を解析し、対象エリアにいたユーザーを抽出します。 この時、ただ単に電車で通り過ぎただけ、のようなユーザーがいるとこの後の解析のノイズになりますので、「そのエリアに一定時間以上いた」といった一定の条件を満たすユーザーのみを抽出します。

2.そのユーザーが対象エリアにいる時間前後の検索クエリを抽出する

対象エリアにいたユーザーが対象エリアにいた時間前後の検索クエリを抽出します。
そして、対象エリアの検索クエリ一覧を出力します。
ここまでの計算やデータ作成はすべてサーバー内で行われ、最終的な検索クエリリストにはIDが出力されません。

3.集まった検索クエリから、「その地域らしいクエリ」を基準にスコア化する。

集まった検索クエリを数えると、一般的な検索クエリや、トレンドのクエリなどが上位に来ます。
たとえば、有名人のニュースが発表されればその有名人の名前やイベント名などです。
そうすると、対象エリアの特徴は出にくいです。
そこで、tf-idfを計算します。tfは検索クエリの頻出数、idfはその周辺の地域と比べたときの特異値を示すスコアです。
たとえば、先ほどの例ですと、有名人の名前は、対象エリアで多く検出されますので、tfスコアが高くなります。

一方で、対象エリアだけでなく周辺の地域でも同じように検索されているでしょうから、特別な検索クエリといえなくなり、idfの値が小さくなります。 そうすると、tfとidfの積で表現される全体のスコアはそれほど大きな値になりません。 簡単にいうとそのような計算方法です。

この検索数のtfのスコア1に対し、特異な検索クエリであることを示すidfのスコアをどのように定義するか、このパラメータをうまくチューニングし、検索クエリを選定しています。先述の"「しっくり来た!」というものの中にスパイス的で「へえこういうのもあるんだ! 意外!」という単語が混ざっている"この状態になるようにうまくチューニングします。
このように、仮想的な街を形作るドット(=検索クエリ)を選定しているのです。
単語で作られた渋谷

これはなんのためにやっているのか?

対象エリアを特徴づけるいい感じの検索クエリを見つけだし、それらの検索クエリで街を再現する。
そして、再現された街に入り、五感を使って没入いただく。
これが今回のVRを使った展示の概要ですが、はたしてこれは何のためにやっていることなのでしょうか。何を伝えたいと考えているのでしょうか。

もちろん、体験者が没入できるように、アート表現として頑張った部分は多々あります。
文字の配置や、一つ一つの文字の動き、音声のタイミング、いろいろなこだわりがあります。
われわれはこのようなアートを通じて、ぜひビッグデータを身近に感じていただきたいと思っています。
体験していただいた人が「ああ、ビッグデータを使えば、こんなふうに世の中を認識できるんだ」と感じていただければ幸いです。

今回はこの3日間でしたが、またどこかでこの展示もしたいとチーム内で話し合っています。
その時はぜひご参加ください。

こちらの記事のご感想を聞かせください。

  • 学びがある
  • わかりやすい
  • 新しい視点

ご感想ありがとうございました


坪内 孝太

Yahoo! JAPAN研究所 上席研究員

人の行動ログに着目したデータ解析の研究に従事しています。

このページの先頭へ