ヤフー広告で配信されている広告のうち、ガイドラインに違反している広告掲載を排除するために、私たちは数年間にわたりの開発を続けています。 このセッションを、「業務革新は人とAIの協力によって実現する」という言葉から始めたいと思います。AI広告審査システムCreative Tester「Creative Tester」の企画や設計開発、導入という一連のプロセスを経ていく中で、これを非常に強く感じています。
今まさに業務にAI導入を検討している方、導入して成長フェーズにある方、いろいろなステージがあると思いますが、どんな状況でも、この言葉は正しく、重要です。
ヤフー広告について
まず、ヤフー広告について紹介します。細かく分類するともっと多くの種類がありますが、今回は大きく3つに分け、「検索広告」「予約型ディスプレイ広告」「運用型ディスプレイ広告」について順に説明します。
検索広告は、Yahoo! JAPANのトップページなどの一番上にある検索ボックスにキーワードを入れて検索したとき、検索結果へキーワードに連動した広告をユーザーに提供するものです。
予約型ディスプレイ広告は、Yahoo! JAPAN トップページにアクセスしたときに表示されることのあるランディングページ全体を使ったダイナミックな広告です。トップページの画面全体を使ってリッチかつ動的に表現できます。
運用型ディスプレイ広告は、Yahoo! JAPANトップページやYahoo!ニュースといった弊社グループの提供するサービス掲載面だけでなく、国内の大手メディアなど、さまざまな場所に広告を掲載できます。また、ユーザーの興味関心に関連する広告を提供するサービスも手掛けています。
これらの広告の中で、ガイドラインに違反しているものがないかをチェックすることが、私たちの部門の主な役割です。
1日約4000万件の広告審査
広告審査のガイドラインは大きく3つあります。広告掲載内容の基準となる「広告掲載基準」、広告掲載面の基準となる「広告配信ガイドライン」、広告を配信するまでのネットワークに関するガイドライン「広告トラフィッククオリティーガイドライン」です。
広告掲載基準に焦点を当ててご紹介すると、例えば、「飲めばやせる」「塗るだけでシミが消える」といった内容の広告を見たことがありませんか?こういった広告は「医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)」に抵触するので、広告掲載基準として認められません。
私たちはこういった違反広告を排除し、インターネットユーザーの目に触れる広告を、信頼でき安心できるものにできるよう日々取り組んでいます。広告審査は、広告が入稿される前から広告の配信が終了するまで、全てのタイミングにおいてAI、システム、さらに目視により365日24時間、絶え間なくチェックをしています。目視による広告審査については、青森県、福岡県、東京都の3つのエリアで、数百人規模で実施しています。
私たちが1日に審査している広告の数は、約4000万件にも上ります。私がヤフーに入社した2018年当時は、1日あたり1500万件程度でした。インターネット広告はこの数年間で高速に成長を続けています。インターネット広告の需要が増えることで広告審査数も増え続け、今もなお増加を続けています。
これまでの広告審査
この膨大な規模に対して、私たちは過去どのように審査を実施していたかを紹介します。数年前の広告審査は本当に大変でした。いくつかの正規表現のシステムと、残りは審査員によるマンパワーで行ってきました。
上図で広告審査の流れを説明します。一番左手が入稿された広告です。その後、入稿された広告がいくつかのパーツに分けられます。タイトル、説明文、広告をクリックした先のランディングページについては、クロール後にデータを取得しています。検索広告では、キーワード、画像も含まれます。
タイトル、説明文、ランディングページ、キーワードについてはテキスト形式で扱えるので、正規表現に当てはめて、正規表現に適合したら目視で審査するという非常に単純なものでした。また、ディスプレイ広告について、画像や動画はテキスト形式ではないので、全て目視でチェックしていました。
正規表現システムで管理していたフレーズは100万を超えていました。この100万以上のフレーズに適合しているかどうかを、審査員は毎週目視でチェックしていたのです。フレーズごとの適合率や正答率が可視化されていて、そのフレーズを編集するか、維持するか、それ自体を削除するかといった判断を、毎週ずっと続けていました。
正規表現のフレーズをメンテナンスしても、全てのリスクは検出できません。また、いろいろな広告が入稿されていくことで、正規表現の網をくぐり抜けカバーしきれない領域が徐々に増えていきます。加えて、審査員の人数にも限界があるため、少しずつ目視審査の割合が小さくなる傾向にありました。
そこで、一度広告を掲載した後に実施する広告審査、つまりパトロールが増えていきます。掲載後の審査が増えることで、ユーザーや広告主にも悪影響を与えてしまうことになりました。掲載後の審査が増えることは、ユーザーに本来見せるべきではない、ガイドラインに違反した広告を表示してしまうことになります。その結果、ユーザーに不快感を与える可能性もあります。
また、広告主にとっても、入稿した広告が掲載され、いざキャンペーンを始めたタイミングで広告が否認されてしまうということが起こります。
このように、マンパワーの限界によって掲載後の審査が増えてしまう状況は、プロダクトだけではなく広告サービス自体にも悪影響を与えてしまう危険性がありました。
広告の審査業務は、安全性を担保するためのものです。しかし、私たちの業務の限界がビジネス自体に影響を及ぼしてしまう。そして広告審査の限界がビジネスの限界を生み出しかねないという危険な状況が数年間続いてしまっていました。これが広告審査のリアルだったのです。
インターネット広告の需要は増え続けています。その増加に合わせて審査員を例えば1000人増やしたり、正規表現で広告掲載前に高精度にリスクを検出したりするといったことは困難です。この負のスパイラルの状態を打破するシステムが必要でした。
AI広告審査システム「Creative Tester」における開発のポイント
そこで構想を練り、開発したのが、AI広告審査システム「Creative Tester」です。Creative Testerを開発する方針として、6つのポイントを意識しました。
正規表現に依存しきっていたシステム審査を高度化するために、マシンラーニングを活用したリスク判定、さまざまなビジネス事情に柔軟に対応できる疎結合に構成されたシステム構成にしました。広告の特性上、同じ商品に対して少しだけクリエイティブを変えて入稿することが多くなるため、そういった類似性の高いケースに対応するリスク判定が求められていました。
また、開発したシステムの保守対応に工数を取られてしまい、本当に必要な開発ができなくなるという問題もあるので、高い保守性を持った環境であること。そして、広告は年末や期末に広告主のプロモーションの事情で広告数が急増する時期に備え、その急増にオートスケールで対応できる環境も必要でした。さらに、常に新しい商品やキャンペーンが生まれ続ける広告市場では、リスク判定精度を常に素早く向上できる必要があり、これを高速かつ効率的に検知し、評価できる環境も求めていました。
そして、Creative Testerを開発する上で、こうした機能を実現するプラットフォームとして Google Cloud Platformを選択しました。
Creative Testerのリスク判定
ここからは、Creative Testerについて詳しく見ていきます。
Creative TesterのAI審査は、入稿された広告を全てシステム判定できるパーツに分割するステップから始まります。先ほど紹介したものと同じように、それぞれパーツを分け、タイトルと説明文はテキストなのでそのままにします。ランディングページはクロールによって取得した情報に加えて、ランディングページの画像を抽出するために、OCRを用いて情報を全てテキストに変換します。
キーワードはテキストなのでそのままです。画像は画像解析し、先ほど紹介した類似性を比較したり、OCRでテキスト変換したりします。そして動画広告も、動画をまず細切れの画像にして画像解析し、OCRで処理します。
音声は音声解析技術を用いて発話されている内容をテキストに変換します。ここでさまざまな変換をした上で、従来利用している正規表現に加えて、マシンラーニングによるリスク判定を実施しています。
リスク判定は、0なのか1なのかといった単純なリスク判定ではありません。正規表現やビジネスロジック、マシンラーニングのモデルのチェックなどを行い、総合的に判断しています。これら全てについてはタグとスコアという形でリスク度合いをつけ、パーツごとに判定し、それらを総合的に判断して最終的な審査結果を出します。これがCreative Testerの基本的な考え方です。
「アンサンブル問題」を、いかに解決するか?
また、マシンラーニングモデルについても「開発して終わり」というわけではありません。開発したマシンラーニングモデルは一定期間に再学習します。再学習の結果の評価データを使って、新旧モデルを比較します。
新しく学習させたモデルが勝っていればデプロイして最新化し、新しく学習したモデルが負けていれば再学習のルートに戻すというプロセスを経て、モデルの精度向上を常に図っています。再学習、評価、そして新旧比較のプロセスで1つ1つのモデルの精度を高めていきます。
ただし、いろいろな広告に対応するために複数のモデルが存在します。そして、複数のモデルの存在により、どのモデルをどう組み合わせると高い成果を出せるのかという「アンサンブル問題」に、私たちもぶつかっています。
例えばAモデルは60%、BとCを掛け合わせると75%という正解率が出せたとすると、他の組み合わせも当然気になってきます。モデルが増えれば増えるほど、このバリエーションを解決する問題というのは複雑になっていき、これを検証するコストも増大します。
実は、モデルが増えていくと、組み合わせが増えるだけではなく、「特定のモデルを含めない方が、パフォーマンスが出せたのではないか」といった可能性も出てきます。高速で変化を続けるこの広告市場で、常に最適解を出し続けるのはかなり難しいことです。
この組み合わせを出すことにデータサイエンティストやエンジニアのリソースを使い続けるのは、良い選択とは言えません。実際に最新の広告を毎日見ているわけではないエンジニアが、その勘所もないのにチューニングを続けるのはかなり難しいことです。
私たちは、毎日広告を見ている審査員がチューニングをするのが、あるべき姿だと考えるようになりました。つまり、常に最新の広告に触れ、審査している審査員が流行や時期に応じたチューニングを自らの手で行う、そういった状況を目指しています。
後述しますが、エンジニアのリソースを新機能開発にたくさん割けることができるように、リソースの最適化、合理化という考え方はCreative Tester全体に通じています。
審査員自らがチューニングし、精度を向上させる
私たちは、審査員が精度向上のためにマシンラーニングモデルやマニュアルでのルール、正規表現などの組み合わせを自分たちで作ることによって、作った組み合わせを自分たちで評価できる環境を用意しています。それを「Creative Tester Play Ground」と呼んでいます。
このPlay Groundでは、新しく作った組み合わせを最新化されているデータセットに対して当て、精度評価ができます。精度が良ければデプロイに進み、そうでなければまた再作成・再検討に進んでいきます。もちろん、データサイエンティストによるモデルチューニングなどが必要なケースは発生します。しかし、非エンジニアでも主体的にAI審査システムの精度向上につながる活動ができる状態を、Creative Testerは目指しています。
先ほどCreative Tester Play Groundによって、エンジニアのリソースを最適化、合理化していくと説明しました。当然審査員のリソースを最重要視している考え方があります。下図では、左側が広告として明らかにリスクが高いもの、右側が明らかにリスクの低いものを表しています。
Creative Testerの成長方向として、明らかにリスクが高いもの、明らかにリスクが低いものはAIが判断し、本当に人の目によって審査するべき対象にのみ絞り込んでいくことこそが、AIやシステムを用いて最適化、合理化を進める理想型だと私たちは考えています。
Creative Testerの基本理念
Creative Testerには、「人のリソースをよりクリエイティビティの高い方向へシフトしたい」という基本理念があります。この「人」には、先に紹介したエンジニアももちろん含まれておりますし、日々広告審査業務を遂行する審査員のメンバーも含まれています。
この基本理念に基づき、新機能の企画や開発を日々進めています。皆さんも、システム開発の目的やKPIをお持ちだと思いますが、こういった理念を設定し共有しているでしょうか?
私はプロダクトマネージャーとして、システム開発において、目指したい方向、どんな世界に変えたいのか、といった理念を設定し、それをプロジェクトに関与するエンジニアやユーザーに浸透させることを大事にしています。
こういった考えを設定し、共有・浸透させていくことが、プロジェクトを良い方向に導くためには必要だと考えています。
AI導入による懸念
「AIに私たちの仕事は奪われるのでしょうか?」という言葉を広告審査のAI化を推進していく際に、審査のメンバーに実際に言われたことがあります。
当然、AIが審査員の仕事を奪うことはありません。難しいものと簡単なものはAIが区別していくことで、審査員の仕事は難易度がより高くなったり、AIに正解を教える仕事に変化していきます。
こういった状況をドラスティックに変化させる際は、徹底的に意識を浸透させる必要があります。私はそのためにほぼ毎月、青森と福岡に赴き、説明を続けてきました。
コロナ禍でリモートワーク中心の生活にシフトした方も多いと思います。ただ、人と人が顔を合わせて理念や思いを共有するのは非常に重要です。人間として最も大事にすべきことはコミュニケーションだと思っています。
また、審査の現場だけではなく、サービスサイドや、セールスサイドからの強い懸念もありました。「AIの判断結果が間違っていたらどうするのか」ということです。人が見ていたものよりもサービスレベルが低下したらどうするのかという指摘です。
ここは私たちが対応したのは、確実な精度検証フローや精度目標の設定です。当然スキームの透明性も重要です。そして、何か想定と違う結果になってしまった際のエラーハンドリングの仕組みを適切に構築することがポイントになってきます。
人とAIが協力して、インターネット広告の信頼と安全を守る
ここまで、Creative Testerについて概念や理念をさまざまな事柄に触れながら紹介してきました。すごいシステムだと思っていただけたかもしれませんが、まだ目視で審査しなければならない、AIが判断を下すのが難しい広告が存在します。
冒頭に紹介した「飲めばやせる」「塗ればシミが消える」といった分かりやすい例についてはAIが判断を下せます。しかし、まだAIが判断を下すことができず、しかも人でも判断を迷ってしまうような広告が存在しています。
広告は、時期や新商品訴求による傾向の入れ替わりというのがかなり顕著に発生します。全く新しい広告にAIが柔軟に対応できるようになるのは、テクノロジーの成長、時間、そして大量のデータが必要です。
MLOpsで学習評価、デプロイを効率化するということも大事ですが、人の知見、ナレッジを正解データとしてAIに与えていくというスキームの構築も非常に重要です。人がAIに教えなければならないものはさまざま存在しています。例えば新しい審査基準、新しい商品、新しい単語、流行、そして法解釈やまた過去の申請履歴などです。こういった情報を人がAIにインプットし続けることが、AI審査システムを開発し、そして運用・成長させていく上で最も重要なことです。
冒頭で紹介したように、私たちはCreative Tester開発を通じて「業務革新は人とAIの協力によって実現する」ということを強く感じました。
インターネット広告は、どうしても「邪魔だ」「うっとうしい」というイメージを持たれがちです。しかし、私たちは嫌われる広告ではなく、誰かの役に立つ広告を届けたいと真剣に考えています。
そのために、広告品質を高め続けていくことが、私たちができることです。今までも、これからも、人とAIが協力してこのCreative Testerを進化させるという活動を続けていきます。私たちは、このCreative Testerの開発を通じて、インターネット広告の信頼と安全を守っていきます。
アーカイブ動画
こちらの記事のご感想を聞かせください。
- 学びがある
- わかりやすい
- 新しい視点
ご感想ありがとうございました
- 甲斐 裕樹
- プロダクトマネージャー
- AIによる広告審査を実現させるシステム・業務の企画設計をリード。広告不正や広告犯罪抑止を目的とした産学官連携を推進するなど、インターネット広告のトラスト&セーフティ領域全般に注力しています。