ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

画像入力のみでマルチモーダルモデル構築、画像分類精度を改善する

こんにちは。テックラボでYahoo!広告のR&Dを担当している水口です。

Yahoo!広告では、入稿時審査や広告配信などのあらゆるフェーズで機械学習モデルを導入しています。旧来は人間が「これは広告として掲載がOKかNGか」(ガイドラインに準拠しているか)を判断していましたが、システムがこの補助をするようになっています。本記事では、その中でもディスプレイ広告の画像審査にマルチモーダルモデルを活用した事例についてご紹介します。

今回構築したマルチモーダルモデルは以下のようになっています。特筆したいのは内部的にはマルチモーダルモデルでありながら、入力には画像のみを使用していることです。これにより他の情報を用意することなく、通常の画像モデルと比べて精度を向上させることができました。

モデル概要

ここからは、なぜこのようなマルチモーダルモデルを作成するに至ったのか、についてご説明してきます。

広告画像の審査とは

ヤフーでは入稿された広告に対して「ガイドラインに準拠していて掲載が可能か」を確認しており、これを広告審査と呼びます。この広告審査ですが、1日の審査アイテム数は約4,000万件にものぼるため、審査員だけでなく、機械学習モデルを含む多数のシステムにより審査が行われています。

今回テックラボが目指したのは、広告審査の1つである広告画像の審査において、新たな機械学習モデルを導入することでシステム審査を改善することでした。

広告審査概要

画像モデルを適応する

広告画像の審査は、画像を入力して「掲載OK or 掲載NG」を分類するタスクになるため、まずは画像分類モデルの利用を検討しました。

画像分類モデルとしては、Vision Transformerのような大規模高精度なモデルからMobileNetのような軽量なモデルまで多数存在していますが、今回は精度と計算速度の要件をバランス良く満たすため、EfficientNetを選択しました。

画像モデル

画像モデルでは画像内テキストを考慮できない

上記の画像モデルを試した結果、二値分類においてArea Under the Curve(AUC)が0.754と、十分な精度はありませんでした。

そこで原因を調査してみると、画像内テキストの文字数とAUCには負の相関があり、文字が多い画像ほどうまく分類できていないという事が分かりました。実際にYahoo!広告では画像内テキストも審査対象になっているため、ガイドラインに違反するテキストを含む画像は掲載NGとしなければいけません。

以上から、通常の画像モデルだと画像内テキストを考慮しきれておらず、そのためAUCが低くなったのではという結論に至りました。

マルチモーダルモデル(画像+テキスト)を適応する

そこで画像内テキストを考慮するため、画像にOCRをかけ、画像と画像内テキストを入力にしたマルチモーダルモデルを構築しました。

内部的には、テキストモデルに軽量なCharCNNを選択しており、画像モデルとテキストモデルの出力をConcatさせて後続のMLPに渡すアーキテクチャとなっています。これにより、画像内テキストを考慮した上で分類ができることになります。

画像モデル

また、今回はもう1つ、画像サイズを入力に加えたマルチモーダルモデル(画像+テキスト+画像サイズ)を用意しました。

ヤフーの広告画像では多様な画像サイズで入稿できるようになっており、その形も正方形(1,200pixel x 1,200pixel)・縦長(936pixel x 120pixel)・横長(320pixel x 1,200pixel)とさまざまです。一方、画像サイズをそろえることで効率よく学習推論するため、これらの画像は正方形にリサイズして入力しているのですが、元の画像サイズによっては画像特徴が変化してしまうことが考えられます。(例:縦長画像を正方形にリサイズすると横に伸びた画像になる)

そこで画像サイズを入力に加えることで、このサイズ違いによる影響が学習されることを期待しました。

モデル概要

評価方法

使用データセットおよび評価方法は以下となっています。

  • データセット
    • 学習データ:2020/11/01 ~ 2022/05/31 に入稿された広告画像
    • 開発データ:2022/06/01 ~ 2022/06/30 に入稿された広告画像
    • テストデータ:2022/07/01 ~ 2022/07/31 に入稿された広告画像
  • 正解ラベル:審査員が目視で付与した審査結果
  • 評価指標: Area Under the Curve(AUC)

結果

結果としてAUCは、画像モデルが0.754、マルチモーダルモデル(画像+テキスト)が0.802、マルチモーダルモデル(画像+テキスト+画像サイズ)が0.823でした。

つまり、画像モデルと比較してマルチモーダルモデルではAUCが4.8pt、さらに画像サイズを加えることで6.9pt改善したことになります。いずれの手法も入力データは画像のみである中で、AUCが6.9pt上昇したことは大きなメリットである考えています。

AUC 画像のみとの差分
画像のみ 0.754 + 0.0
マルチモーダル(画像+テキスト) 0.802 + 0.048
マルチモーダル(画像+テキスト+画像サイズ) 0.823 + 0.069

おわりに

広告画像の審査にマルチモーダルモデルを利用し、入力データを変えずに精度を向上させた事例について紹介しました。

広告審査には他にも多くの機械学習モデルが使用されているため、今後のYahoo! JAPAN Tech Blogで紹介できればと思います。

こちらの記事のご感想を聞かせください。

  • 学びがある
  • わかりやすい
  • 新しい視点

ご感想ありがとうございました


水口 達矢
機械学習エンジニア
Yahoo!広告審査のR&D領域を担当しています。ハーブティーが好きで最近メディカルハーブ検定を取得しました。

このページの先頭へ