6月10日に公開された、Yahoo! JAPANの研究開発プロダクトのショーケース「Yahoo!ラボ」。
このなかのプロダクトのひとつとしてYahoo! JAPAN研究所が開発した独自の技術「VisualSeeker」について、研究者の岩崎雅二郎さんにお話を聞きました。
一般の画像検索ではテキストを入力して検索しますが、VisualSeekerでは画像自体の特徴に基づいて検索します。以下のように様々な検索が可能なので、場合に応じて適切な検索方法を選択して利用できます。
技術的に最大の特徴は、高速性と高精度を両立している点です。
高精度な検索を実現するためにVisualSeekerでは画像から、色、色の分布、輪郭線の分布、模様の分布、の4種類の特徴量(ベクトルデータ)を抽出しており、その次元数は1000を超えています。高精度を実現するには特徴量(ベクトルデータ)が大きくならざるを得ません。これほど大きい次元数の場合、高速に検索することは難しいとされています。しかし、VisualSeekerでは独自に開発したグラフ構造型の検索インデックスによって高速に検索することが可能です。VisualSeekerでは100万画像程度しか登録されていませんが、1000万画像を登録しても並列処理せずに1秒以下で検索できることを確認しています。このような高次元の特徴量を高速に検索するインデックスにより高速性と高精度を両立しています。
もう一つの特徴は複数の画像を指定して検索する技術です。
複数の画像を指定することによって、ユーザーは欲しい画像をより正確に表現できるようになります。既存の複数画像検索の手法では、複数の画像から抽出した特徴量を統合することよって、最終的な検索結果を取得するのに対して、VisualSeekerでは、検索の高速性を生かし、ユーザーが選択した複数の画像を個別に検索し、その検索結果を統合して最終的な検索結果を生成しています。これはゾラン・ステイチさんの研究成果です。
一般的なテキストに基づく画像検索との違いは、VisualSeekerが画像の内容に基づいて検索しているということです。テキストに基づく画像検索では指定したテキストに関連がない画像が検索されることを経験された方も多いかと思いますが、VisualSeekerの場合には画像の視覚的特徴に基づいて検索するので、視覚的に類似するものが必ず検索されます。ただし、画像内の物体を認識しているわけではないので、物体としては類似しない場合はあります。
初期画面で画像をダブルクリックすると画像が検索されますが、検索された画像をさらに次々ダブルクリックするとネットワーク状になりますので、いろいろ検索してみてネットワークがどのような構造に変化していくのを楽しんでみることができます。
また、スケッチ検索では黒のペンでの線画を描いて描画色をOFFにして検索すると、色を塗ることなく簡単に形状の似た画像が検索できると思います。
さらに、複数画像検索では、選択した複数の画像でのAND検索になるので、欲しい画像を取り置きしつつ、かつ、その取り置きした画像で絞り込みながら検索できますので、効率良く検索ができます。
このように、今までのテキストによる画像検索ではできなかった様々な検索方法があるので、いろいろと工夫して使ってみて頂ければ幸いです。
まずは、オークションやショッピングなどで商品の検索に適用したいと思っています。ファッションなどの場合には見た目の印象で検索したいことが多いですが、こんな感じというのをテキストで表現するのは難しいものです。そういった場合にはVisualSeekerの技術が効果的だと思っています。
また、インターネット上には大量に画像が存在するので、インターネット上の画像を縦横無尽に検索できるようにしたいと思っています。
■VisualSeekerとは?
--VisualSeekerの機能
一般の画像検索ではテキストを入力して検索しますが、VisualSeekerでは画像自体の特徴に基づいて検索します。以下のように様々な検索が可能なので、場合に応じて適切な検索方法を選択して利用できます。
- 類似する画像の検索
- 描いた画像に類似する画像の検索
- 指定した色に類似する画像の検索
- アップロードした画像に類似する画像の検索
- 複数画像を指定して類似する画像の検索
- また、検索結果がネットワーク状に配置されるので、大量の検索結果をも効率的に俯瞰でき画像空間を探索している雰囲気が味わえます。
--「類似画像検索」の技術概要
技術的に最大の特徴は、高速性と高精度を両立している点です。
高精度な検索を実現するためにVisualSeekerでは画像から、色、色の分布、輪郭線の分布、模様の分布、の4種類の特徴量(ベクトルデータ)を抽出しており、その次元数は1000を超えています。高精度を実現するには特徴量(ベクトルデータ)が大きくならざるを得ません。これほど大きい次元数の場合、高速に検索することは難しいとされています。しかし、VisualSeekerでは独自に開発したグラフ構造型の検索インデックスによって高速に検索することが可能です。VisualSeekerでは100万画像程度しか登録されていませんが、1000万画像を登録しても並列処理せずに1秒以下で検索できることを確認しています。このような高次元の特徴量を高速に検索するインデックスにより高速性と高精度を両立しています。
もう一つの特徴は複数の画像を指定して検索する技術です。
複数の画像を指定することによって、ユーザーは欲しい画像をより正確に表現できるようになります。既存の複数画像検索の手法では、複数の画像から抽出した特徴量を統合することよって、最終的な検索結果を取得するのに対して、VisualSeekerでは、検索の高速性を生かし、ユーザーが選択した複数の画像を個別に検索し、その検索結果を統合して最終的な検索結果を生成しています。これはゾラン・ステイチさんの研究成果です。
■既存の画像検索との違いを教えてください。
一般的なテキストに基づく画像検索との違いは、VisualSeekerが画像の内容に基づいて検索しているということです。テキストに基づく画像検索では指定したテキストに関連がない画像が検索されることを経験された方も多いかと思いますが、VisualSeekerの場合には画像の視覚的特徴に基づいて検索するので、視覚的に類似するものが必ず検索されます。ただし、画像内の物体を認識しているわけではないので、物体としては類似しない場合はあります。
■便利な使い方があれば、教えてください。
初期画面で画像をダブルクリックすると画像が検索されますが、検索された画像をさらに次々ダブルクリックするとネットワーク状になりますので、いろいろ検索してみてネットワークがどのような構造に変化していくのを楽しんでみることができます。
また、スケッチ検索では黒のペンでの線画を描いて描画色をOFFにして検索すると、色を塗ることなく簡単に形状の似た画像が検索できると思います。
さらに、複数画像検索では、選択した複数の画像でのAND検索になるので、欲しい画像を取り置きしつつ、かつ、その取り置きした画像で絞り込みながら検索できますので、効率良く検索ができます。
このように、今までのテキストによる画像検索ではできなかった様々な検索方法があるので、いろいろと工夫して使ってみて頂ければ幸いです。
■今後の展望は?
まずは、オークションやショッピングなどで商品の検索に適用したいと思っています。ファッションなどの場合には見た目の印象で検索したいことが多いですが、こんな感じというのをテキストで表現するのは難しいものです。そういった場合にはVisualSeekerの技術が効果的だと思っています。
また、インターネット上には大量に画像が存在するので、インターネット上の画像を縦横無尽に検索できるようにしたいと思っています。
こちらの記事のご感想を聞かせください。
- 学びがある
- わかりやすい
- 新しい視点
ご感想ありがとうございました