ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

今年もビックデータをテーマにしたサマーインターンシップやります

学生のみなさん。こんにちは。

みなさんが「ビッグデータ」を利用して実現したい夢は何でしょうか? 

データソリューション本部では、データの声を聞きユーザーの課題を解決していく仲間を募集しています。

2013年に引き続き、今年もサマーインターンシップ2014を実施します。ご応募お待ちしております。

https://about.yahoo.co.jp/hr/internship/bigdata/mbd01/

さて、今回の投稿では、昨年度のインターンシップの中の発表内容の一部を紹介してみようと思います。

応募の参考になれば幸いです。

昨年のテーマを1つ紹介です 

■ テーマ
知恵袋で質問をするユーザーは事前調査して質問しているのか

■ 背景
知恵袋で「調べてから質問しろ」という回答が見られるが、それが事実なのか疑問に思った。
本当に自分で調べずに人に聞いて解決しようとする人が多いのか、単なる流行語として使われているのか明らかにしたい。
質問が行われるまでのユーザーの行動を、ログから観察することで知恵袋検索に新しい価値が提案できるかもしれない。

■ アプローチ方法
知恵袋に質問に投稿する前のユーザーの検索ログを調べることで、事前に調べてから質問を行ったかを判定する。

■ 利用したデータと技術
・知恵袋のデータ
・検索のログ
・膨大なログを処理するための分散処理技術のHadoop
・質問文と検索クエリーを形態素解析する日本語処理

■ 結果
全体で4割のユーザーが検索をせずに質問している。

画像1

「おしゃべり、雑談」カテゴリーは、Q&Aではない雑談などの目的に利用して頂けていることがわかる。
また、検索クエリで表現しにくい複雑な内容がすぐに質問されやすいことがわかる。 

画像2

この結果を受けて、検索クエリをより自然文に近い形で利用できるようにすれば、より多くのユーザの課題解決ができるかもしれないと考えました。

■ 結果の注意 
この結果は、インターンシップに参加した方の研究成果発表内容であり、Yahoo! JAPAN 公式の分析結果ではありません。 
また、精度はインターンシップの期間内でマッチングの結果のためログの解析期間や形態素解析の手法の見直しにより精度向上の余地があります。

昨年の良かったこと

実験科学の大切なプロセスは「仮説」→「実装」 →「検証」のサイクルを回し続けることです。

昨年度のインターンシップでは、このプロセスを学生さんと社員が協力して回すことができとても良かったと私は感じました。

  • 数多くのビックデータから興味があるテーマを選ぶ
  • テーマやアプローチ手法を先輩社員と徹底的に議論
  • 盛り上がってくると、データサイエンティスト、日本語処理、研究所のスペシャリストを巻き込んだ議論が自然発生
  • 数千台のHadoopで仮説を検証するためのプログラムの実装を行う。
  • 結果の検証をする。そして再び仮説の設定に戻る。

結果として、学生さんから「2週間の期間はあっという間に終わった。もっとやりたい。」という感想を多くいただけて本当に感謝しております。

おわりに

データソリューションの他にも、マルチメディア処理検索技術などの数多くのワクワクするカリキュラムが準備されています。

今年もパワフルな学生さんの参加をお待ちしております。

よろしくお願いします。

リンク

インターンシップ - ヤフー株式会社
https://about.yahoo.co.jp/hr/internship/

こちらの記事のご感想を聞かせください。

  • 学びがある
  • わかりやすい
  • 新しい視点

ご感想ありがとうございました

このページの先頭へ