ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

データ分析や機械学習の技術交流 〜 ヤフー福岡 Tech Meetup #4 レポート

ヤフー福岡 Tech Meetup

こんにちは。ヤフーの天神オフィスで働くエンジニアの甲斐です。

天神オフィスには、さまざまな分野を担当しているエンジニアがいます。福岡で働くエンジニア・デザイナーの方々と、情報交換しつつ、交流していきたいと考えています。

2019年6月21日(金)に福岡で4回目のTech Meetupを開催しましたのでレポートします。本イベントは企画から本番まで、福岡の開発拠点である天神オフィスのメンバーが中心となって運営しています。

MCから開会のあいさつ。

MCからのあいさつ

ヤフーでの事例紹介

続いて、ヤフーの熱中症予防に関する事例について、大屋よりお話しさせていただきました。

大屋の登壇

このセッションでは、ヤフーが保有する位置情報(混雑情報)データや、官公庁が提供するオープンデータを用いて、熊本地震で発生した隠れ避難所(自治体などが正式に定めたものでない避難所)がどのような場所にできたのか発見する事例や東京都の熱中症リスクを予測する事例についてお話しさせていただきました。また、ヤフーのデータフォレスト構想を紹介し、ヤフーが保有するデータを生かしていける分野を紹介させていいただきました。

このあとは市丸から「不均衡データ分析時のノウハウと注意点」と題して、お話しさせていただきました。

市丸の登壇

ヤフーカードの不均衡データ(正解・不正解が大きく偏ったデータ)分析について、与信審査などクレジットカードに関するデータならではの特徴を交え、不正利用からお客様を守るためのデータ分析・機械学習について紹介させていただきました。
来場者アンケートでも「クレジットカードのデータ処理の裏側が知れて興味深かった。」という声が多かったです。

機械学習向け画像データセットの作成ノウハウ

土井からは「画像分類データセット作成時のノウハウと注意点 〜ラーメン二郎データセットの事例を交えて〜」と題してお話しさせていただきました。

土井の登壇

本セッションでは、ラーメンの画像から店名を予測できる「ラーメン二郎 全店識別bot」を題材として、機械学習やテスト・評価に使用するデータセットについて、データの前処理のノウハウを中心にお話しさせていただきました。

会場の様子

精度の高い予測をするためには何万毎もの画像を学習させる必要があるのですが、学習データのクレンジング(重複画像や不要な画像の除去)が不十分な場合、学習の効率が落ちてしまいます。そこで前処理として類似度の高いほぼ同一の画像を除外しておく必要があります。

以下のスライドはその手法の紹介です。人間の感覚では似たようなラーメンの画像に見えるかもしれませんが、画像の相違度を表す値(ハミング距離)が22と大きい値となっていおり、この場合2つの画像は十分に異なるデータであると判別できます。
このような手法を用いることで大量の画像を効率よく前処理し機械学習の精度を高めるノウハウを紹介させていただきました。

スライド phash値の例

おわりに

懇親会の時間はたっぷりと90分ほど設けました。
また、テーブルを四角形に配置して登壇者含む社員が満遍なく行きわたりお話をさせていただけるようにしました。

懇親会の様子

終了時間まで会話が途絶えることなく終始盛り上がりました。弊社社員とたっぷりと交流していただけたのではないかと思います。

今回も多くの方にお越しいただき、ありがとうございました。

今後も福岡で交流の機会を作っていきたいと思います。次回もConnpassでご案内する予定ですので、参加したいという方は以下のConnpassページの「メンバーになる」ボタンを押してお待ちください。

こちらの記事のご感想を聞かせください。

  • 学びがある
  • わかりやすい
  • 新しい視点

ご感想ありがとうございました


甲斐 新悟

エンジニア

ヤフーの天神オフィスで働いています。

このページの先頭へ