Hadoopで、かんたん分散処理

こんにちは、地域サービス事業部の吉田一星です。

今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。

複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、
Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。

1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。

例えば、今まで1台でやっていた、あるログ集計処理を、Hadoop(マスタ1台、スレーブ19台)で行うようにしたところ、

Hadoop	5分34秒
従来の処理	6時間6分35秒

集計処理のやり方が違うので単純比較はできませんが、Hadoopの威力がおわかりいただけるかと思います。
もちろん、サーバの台数をもっと増やせば、それだけ処理能力は向上しますが、数GB程度のデータ処理ならば、数台でも十分に効果を実感できるのではないでしょうか。

MapReduce

Hadoopを説明する上で、避けては通れないMapReduceについて説明します。

MapReduceは、Hadoopで用いられるプログラミングモデルで、Googleの論文が元になっています。
ユーザはMap関数とReduce関数を用意するだけで、あとはHadoopが勝手に複数のサーバで分散処理をしてくれます。

Mapは入力データを読み込みフィルタリングする役割、ReduceはMapから渡されたデータをまとめ上げて結果を出力する役割をします。
Map、Reduceはそれぞれ独立して多数のサーバに分散して処理されます。

例えば、あるテキストの中で出現する単語をカウントする処理（WordCount）を考えてみましょう。

THE END OF MONEY IS THE END OF LOVE

というテキストがあったとすると、各単語の出現数は、

THE	END	OF	MONEY	IS	LOVE
2	2	2	1	1	1

ですが、これをMapReduceで処理してみます。

Map

Mapは、「THE END OF MONEY IS THE END OF LOVE」というテキストを入力として読み込みます。
そして、それぞれの単語に「1」という値を割り当てます。

THE	END	OF	MONEY	IS	THE	END	OF	LOVE
1	1	1	1	1	1	1	1	1

MapReduceのデータは、KeyとValueのペアで表されます。
Key、Valueのペアを<Key,Value>と表せば、Map処理は、入力テキストから次のような<Key,Value>を作り出すことです。

20090303_1

Shuffle

Mapの出力をキー順にソートし、同じKeyをもつペアを束ねるのがShuffleです。（オプションで数値順にソートなども指定可能）
キー順にソートすることにより、同じKeyをもつペア同士が隣り合います。
そして、隣り合った同じKeyをもつペアは、束ねられます。
Shuffleは、MapからReduceにデータを渡す際に自動的に行われます。