ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

2023.09.11

ヤフーの画像分野の研究内容紹介（MIRU2023 レポート）

こんにちは。ヤフーで画像処理エンジニアをしている吉橋です。先日2023年7月25日から28日まで、浜松にて国内最大級の画像分野の学会、画像の認識・理解シンポジウム（MIRU）2023が開催されました。

ヤフーもスポンサーとして協賛し、企業ブースの設営や研究発表・聴講のために総勢10名で参加しました。興味があっても参加できなかった・または来年以降の参加を検討しているみなさんのために、この記事では会場の様子や、画像生成AIに関するヤフーの研究発表内容を紹介します。

MIRUとは？

国内の画像分野では言わずと知れた学会でもあるMIRUは画像処理や、人工知能（AI）の視覚機能を研究する分野「コンピュータビジョン」など、情報学における画像分野の一大学会です。英語名（Meeting on Image Recognition and Understanding）の略称も”見る”にかけていて、おしゃれですね！

今年は主催が情報処理学会コンピュータビジョンとイメージメディア研究会（CVIM）・共催が電子情報通信学会パターン認識・メディア理解研究専門委員会（PRMU）で、隔年持ち回りで開催されています。毎年国内の会議場を転々としながら開催されており、今年は静岡県浜松市のアクトシティ浜松で開催されました。

国内の感染状況もあり、おととしまではオンライン開催、去年はオンサイトとオンラインでのハイブリッド開催でしたが、今年になりついにオンサイト限定の開催となりました。

会議では

ホットな研究トピックの初歩から最先端までを学べるチュートリアルセッション
最先端で活躍されている研究者のお話を生で聴ける特別講演
国内のさまざま様々な研究が一堂に集まるオーラル・ポスターセッション
スポンサー企業の製品や研究開発の様子が知れる企業ブース

といったさまざまな発表があり、盛りだくさんの4日間でした。

ヤフーの研究発表

1. アテンションはアノテーションの代わりになるか？：テキスト−画像生成モデルの注視機構を利用した領域分割の弱教師あり学習

この研究では近年注目を集めている画像生成AIを”意味領域分割（セマンティックセグメンテーション）”という別のタスクを解くAIの学習に利用することを試みた研究です。

意味領域分割は特定の物体を画像中から切り抜くための技術です。AdobeのPhotoshopなどの画像編集ソフトにも機能として搭載されており、利用したことのある方もいるのではないでしょうか。この意味領域分割ですが、実は学習データとして正解切り抜き（アノテーション）を人間が作ってあげないといけないため、学習データのコストが高いという問題があります。そこでこの研究では、生成AI Stable Diffusionに学習用画像と切り抜き結果を同時に出力させることで、大量の学習データを自動生成するという新方式を考案しました。

図のように画像生成モデルの注意機構（attention, AIが認識や生成時に参照する領域を制御する仕組み）を用いて画像と同時に切り抜きデータを”マスク”として生成する手法をattn2maskと命名しました。

Attn2maskの概要

従来は人手作成学習データで切り抜き正確率が70%程度だった画像セットに関して、切り抜き正確率50%が出ており、完璧とは行かないまでも上々の結果が得られました。

Attn2maskの生成データ例

このような”AIを使って新しいAIの学習データを作る”というアプローチは、従来は遠回りで筋が悪いとも考えられていたのですが、画像生成AIなどが飛躍的に進歩した最近では現実味を帯びてきていると思いました。この研究成果はMIRU優秀賞を受賞しました。

2. 拡散モデルによる画像内の物体の任意色への変換および類似画像検索への応用

この研究ではYahoo!ショッピングやヤフオク!での類似画像検索の改善に向けて商品画像の色変換に取り組みました。画像検索での課題として「色違い商品」の取り扱いがあります。ファッションアイテムや家電製品には同一製品の色違いが多くあり、好みの色の製品をチョイスできます。このような色違い商品に関して

検索クエリ画像の色を好みに変換してから検索することで、好きな色の商品を検索しやすくする
検索モデルが色を考慮して、似た色の商品を優先的に検索できるようにする。

といった将来の機能拡張に向けて、その基礎となる商品色の変換モデルに取り組みました。拡散モデルによる画像変換（img2img）において色ラベルを指定できるようにする、またヒストグラム平坦化の前処理を加えて色の異なる画像を生成しやすくするなどの工夫を加えました。

色変換の概要図

評価の結果、色変換の質・背景などに余計な変化を与えない度合いの評価指標で既存のStarGANより高いスコアを示すこと、また色変換した学習データを利用することで、商品色を考慮した画像検索の性能を改善できることなどがわかりました。

色変換の結果例

本発表のポスターはこちらからご覧いただけます。

ヤフーの企業ブース

企業ブースの画像

企業ブースの画像（懇親会）

研究発表に加えて、ヤフーの紹介をする企業ブースを設置しました。企業ブースもポスターセッション会場で、ポスターによるヤフーの画像技術を用いたサービスや取り組みの紹介を行いました。文字認識、類似画像検索など一部の取り組みはこのYahoo! JAPAN Tech Blogでも紹介させていただいています。

近い業界の企業の方や大学の先生方、企業に興味のある学生の皆さんなど多くの方が聴きにきてくださり、終始大盛況でした。また懇親会もポスター・企業ブース会場で実施され、お酒も入りつつ他の参加者の皆さまとの話が弾みました。

もうすぐヤフーはLINEと合併するため、ヤフー単体での学会ブース設置はこれが最後です。そのためヤフーのみのロゴで作ってしまってあるノベルティグッズも大処分セールのつもりでたくさん配布しました。来年のMIRUは熊本での開催となります。またいつか新会社 LINEヤフー株式会社として、よりパワーアップしたブースでMIRUに帰ってこれたらと思っています。

終わりに

会場にて議論・フィードバックをくださった皆さま、誠にありがとうございました！ヤフーではエンジニア・研究者が技術開発を通して業界の発展に寄与しつつ、より便利なサービスを作るために役立てていく活動をしています。

画像分野以外でも多くの研究開発を行っています。最新の成果は Yahoo! JAPANの研究開発をご覧ください。

こちらの記事のご感想を聞かせください。

学びがある
わかりやすい
新しい視点

ご感想ありがとうございました

吉橋亮太: 画像処理エンジニア

前の記事へ

一覧へ戻る

次の記事へ

ヤフーの画像分野の研究内容紹介（MIRU2023 レポート）

MIRUとは？

ヤフーの研究発表

1. アテンションはアノテーションの代わりになるか？：テキスト−画像生成モデルの注視機構を利用した領域分割の弱教師あり学習

2. 拡散モデルによる画像内の物体の任意色への変換および類似画像検索への応用

ヤフーの企業ブース

終わりに

おすすめの記事

検索システムと自然言語処理AIを合わせ、編集作業を効率化する（Yahoo!ニュースのAI事例）

Visual Regression Testingでテスト工数を削減する（ディスプレイ広告タグでの目視確認の自動化）

エンジニアによるワークロード別コスト可視化の成功例（ビジネスと直結する分析施策）

ブラウザの戻る/進むを高速に！ヤフーにおけるBFCache有効化に向けた取り組み