こんにちは。Yahoo!広告に関わる分析を行っているアナリストの菊池です。
Yahoo!広告の1つである検索広告において、表現の異なる広告を数多く入稿した(広告の多様性が高い)ほうが、ユーザーをひきつける可能性が高くなるということは、理論面や経験から認識されてはいました。が、それがデータで示されたことはありませんでした。
この記事では、本当に多様性が高いとユーザーをひきつけやすいかを、形態素解析という手法と生態学で利用されている指標を利用して分析した事例を紹介します。
検索広告と、良い広告
今回は、検索広告を例に分析します。検索広告とは、Yahoo! JAPANで検索をした際、検索キーワードに応じて、検索結果ページに表示されるテキスト広告です。
広告主は、特定のキーワードが検索された際に何という文章を掲出したいかを入稿します。
その際、1つの検索キーワードに対して、複数の文章のパターンを入稿できます。(この複数の広告のまとまりを広告グループと呼びます)
検索が実行されると、広告を配信するシステムは、1つの検索キーワードに関連付けられた広告グループの中から、より良い広告を選定して検索結果ページに表示します。
システムが広告の良し悪しを判断する基準は複数ありますが、重要な基準の一つが、ユーザーがクリックしたくなる広告かどうかです。
1つの広告グループに複数の広告が入稿されている場合、システムは過去の実績などからクリックされやすい広告を学習して、よりクリックされやすい広告を選定してくれようになります。
(そのため、広告を掲出したいキーワードに対して、複数の広告を多様な表現で作成し入稿することが推奨されています。)
このクリックされやすさ(CTR)のデータを用いて、実際に多様な表現の入稿している広告主の方が、そうでない広告主よりクリックを獲得しているのかを分析してみました。
広告の多様性
広告グループに、似たような広告ばかりでなく、表現の異なる広告が多く含まれている場合に、広告に多様性があるとされます。 この多様性について、もう少し詳しく説明したいと思います。
各広告は文章であり、文章は複数の単語で構成されています。
異なる表現の文章では、異なる単語が使用されます。そのため、使用される単語の種類の数が多いほうが多様性が高いと言えます。ただ、単語の種類の数が多かったとしても、一部の単語の出現率が他の単語に対して大幅高い場合、文章としては似たものになる可能性があります。単語の出現率が均等であるほうが、多様性が高いと考えることもできます。
以上より、「単語の種類の数」と「単語の出現率の均等性」が、広告の多様性を測る要素になります。各要素をどの程度重視するかによって、多様性の高低は変化します。
- 多様性の高い広告グループの例
- おもしろい検索広告の分析記事。今ならスペシャルプライス。
- 広告の多様性とCTRの関係を明らかに。3月までの限定価格。
- 多様性の低い広告グループの例
- おもしろい検索広告の分析記事。今ならスペシャルプライス。
- 今だけスペシャルプライス。おもしろい検索広告の分析記事。
分析の大枠
分析の大まかな流れは以下の通りです。
- 広告グループに含まれる広告の広告文をもとに、各広告グループの多様性を表す指標を算出
- 検索キーワード別に、その検索キーワードの検索において広告グループ配下の広告が掲出された数に対してどの程度クリックされたか(CTRと以下呼びます)を実績から広告グループごとに算出
- 検索キーワード別に、CTRの中央値を計算し、中央値よりCTRが高い群と中央値よりCTRが低い群に広告グループを分け、それぞれの群に含まれる広告グループの多様性指標の中央値を算出
- 多様性指標が低CTR群より高CTR群の方が高い検索キーワードが、全検索キーワードのうちどの程度の割合かを算出することで、多様性とCTRの関係を推測します
多様性を表す指標として、生態学で使われる指標を採用
多様性を表す指標を選択するため、まずは文章用の指標を調査しました。
しかし、文章の多様性に限定したリサーチでは、今回の分析に適した指標が見つからなかったため、調査の範囲をさまざまな分野に広げました。
その結果、今回の分析に適していると採用したのが、生態学で利用される、ある空間内に存在する生物の集団における生物種の多様性を数値で表現する指標です。
生物種の多様性は、生物種の種類がどれだけ多いかと各生物種の個体数がどれだけ均等か(均等であるほど多様であるとされる)という要素で構成されます。
これらの要素は、広告の多様性を考える際に考慮すべき要素と同様のため生物種の多様性指標を採用することにしました。
生物種の多様性指標にも数多くの種類があるのですが、広告の多様性とCTRの関係において均等性がどれだけ重要かは知られていないため、そこも明らかにするために均等性の重要度の異なる複数の指標を利用することにしました。
具体的には以下の3つの指標を利用することにしました。
種数は均等性を考慮しない種の種類の数であり、シャノンの多様性指数(以下シャノンと表記)とシンプソンの多様性指数(以下シンプソンと表記)は均等性も考慮されており、シャノンよりシンプソンの方が均等性の重要度が高い指標です。
形態素解析を用いて、文章から多様性指標を算出
利用する指標が定まったので、次は実際に広告グループに含まれる広告の広告文を利用して各指標を算出します。生物種=単語、個体数=その単語の出現頻度とすることで、各指標を算出できそうです。
例えば以下のような文章があったとします。
君は親切だ君は本当に
この文章を単語に分割すると、
君/は/親切/だ/君/は/本当に
となります。
このように文章を単語に分ける作業は形態素解析と呼ばれ、数多くの手法(形態素解析エンジン)が開発されています。
今回はMeCabというオープンソースの形態素解析エンジンを利用しました。MeCabはメジャーな形態素解析エンジンであり、さまざまなプログラミング言語でMeCabを簡単に扱えるパッケージが存在します。
ちなみに、ヤフーも日本語の形態素解析APIを提供しておりますので、ご興味のある方はぜひ利用してみてください。
こうして分割した各単語を生物種の指標としてあてはめると、こうなります。
生物種(=単語) | 個体数(=出現頻度) |
---|---|
君 | 2 |
は | 2 |
親切 | 1 |
だ | 1 |
本当に | 1 |
分析の結果
形態素解析を用いて広告グループごとに多様性を算出できるようになったので、あとは以下を行い多様性とCTRの関係を見てみました。
3. 検索キーワード別に、CTRの中央値を計算し、中央値よりCTRが高い群と中央値よりCTRが低い群に広告グループを分け、それぞれの群に含まれる広告グループの多様性指標の中央値を算出
4. CTRの高い群の方がCTRの低い群より多様性指標も高い検索キーワードが全検索キーワードのうちどの程度の割合かを算出することで、多様性とCTRの関係を推測します
結果としては図のように、CTRの高い群の方がCTRの低い群より多様性指標も高い検索キーワードは、多様性指標に種数を利用した場合は64%、シャノンを利用した場合は62%、シンプソンを利用した場合は59%でした。
多様性以外にも多数の要素が絡むこともあり極端な結果とはなりませんでしたが、それでも多様性が高いとクリックされやすい可能性が高いと推測できます。
また、均等性を重視する指標ほど割合が低くなることから、均等性はクリックのされやすさとは関連がなく、広告グループ配下に含まれる単語の種類を多くすることで、クリックされやすい広告を掲出できる可能性が高まることが示唆されると考えます。
本分析によって、ユーザーにとってより良い広告を掲出する指針を、理論・経験からのみでなくデータから示せたと言えるのではないでしょうか。
おわりに
私の所属するYahoo!広告に関わる分析を行う部署では、本分析のようにステークホルダーの皆様により良い広告体験をお届けできるような分析を日々行っています。
他の分析についても、Yahoo! JAPAN Tech Blogに随時掲載していく予定ですので、楽しみにしていただけると幸いです。
(この記事に関連する採用情報「データアナリスト」もぜひご覧ください)
こちらの記事のご感想を聞かせください。
- 学びがある
- わかりやすい
- 新しい視点
ご感想ありがとうございました
- 菊池 拓
- Yahoo!広告 アナリスト
- Yahoo!広告関連の分析の中でも、検索広告や営業活動まわりの分析を主に担当しています。