Hadoopを動かす(一日目)
Hadoopの導入手順は、こっちにまとめ直した(2011/10/08)↓
Hadoop導入まとめ - オボエガキ用
これ(Hadoop 第2版)を買って、本格的に勉強開始。
2章の1発目のサンプルプログラムから動かすのに苦労したので、纏める。
- Hadoop起動 起動その他諸々は、前回の記事を参照→2011-08-02 - オボエガキ用
- サンプルプログラム 今回使用したのは、Hadoopの0.20系なので、2章のNewMaxTemperatureプログラムを用いる。
- Eclipseの設定
- JARファイルを作成する
- サンプルファイル サンプルファイルのダウンロード先がさっぱりわからん。
- HDFSにファイルを転送 hadoop fs -copyFromLocal sample.txt sample.txt
- 実行 hadoop jar NewMaxTemperature.jar sample.txt output
- 確認 下記のどちらかの方法によってデータを確認できる。
- 参考リンク
hadoop-XXXXXX.jar系を全部追加。
プラグインがeclipse-pluginsフォルダに入っているので、それをEclipseのpluginに追加しておく。
classファイルから上手くいったので→Classファイルから起動 - オボエガキ用
なので、テストには下記参考リンクのa.のテストデータを使用。
(sample.txtのパスは適当に決めておく事。
1個目のsample.txtは、入力ファイル&パス。
2個目のsample.txtは、HDFS上のファイル名とパス。)
上記リンクの「dfscat」コマンドは、「hadoop dfs -cat」の略。
但し、sample.txtのパスは、HDFS上のパスを指定する事。
これで、sample.txtのmap-reduceの結果が、output以下に格納される。
Name Node : http://localhost:50070/
hadoop dfs -cat output/part-r-00000