Hadoopを動かす(一日目)

Hadoopを動かす(一日目)

Hadoopの導入手順は、こっちにまとめ直した(2011/10/08)↓
Hadoop導入まとめ - オボエガキ用

これ(Hadoop 第2版)を買って、本格的に勉強開始。

2章の1発目のサンプルプログラムから動かすのに苦労したので、纏める。

  1. Hadoop起動
  2. 起動その他諸々は、前回の記事を参照→2011-08-02 - オボエガキ用
  3. サンプルプログラム
  4. 今回使用したのは、Hadoopの0.20系なので、2章のNewMaxTemperatureプログラムを用いる。
  5. Eclipseの設定
  6. ダウンロードしてきたHadoopフォルダの中に、hadoop-core.XXX.jarがあるので、これをプロジェクトに追加。(Configure Build Path) 取り敢えず、これで赤×が無くなる。
    hadoop-XXXXXX.jar系を全部追加。
    プラグインeclipse-pluginsフォルダに入っているので、それをEclipseのpluginに追加しておく。
  7. JARファイルを作成する
  8. 上記リンクのサイトでは、Classファイルで実行をしていたが、上手く行かなかったので、JARファイルを作成する事にした。(Eclipseで作成。)
    classファイルから上手くいったので→Classファイルから起動 - オボエガキ用
  9. サンプルファイル
  10. サンプルファイルのダウンロード先がさっぱりわからん。
    なので、テストには下記参考リンクのa.のテストデータを使用。
  11. HDFSにファイルを転送
  12. hadoop fs -copyFromLocal sample.txt sample.txt
    (sample.txtのパスは適当に決めておく事。
    1個目のsample.txtは、入力ファイル&パス。
    2個目のsample.txtは、HDFS上のファイル名とパス。)
    上記リンクの「dfscat」コマンドは、「hadoop dfs -cat」の略。
  13. 実行
  14. hadoop jar NewMaxTemperature.jar sample.txt output
    但し、sample.txtのパスは、HDFS上のパスを指定する事。
    これで、sample.txtのmap-reduceの結果が、output以下に格納される。
  15. 確認
  16. 下記のどちらかの方法によってデータを確認できる。
    Name Node : http://localhost:50070/
    hadoop dfs -cat output/part-r-00000
  17. 参考リンク
    1. http://www.hpcs.cs.tsukuba.ac.jp/~mikami/pukiwiki/index.php?%E8%87%AA%E4%BD%9C%E3%81%97%E3%81%9FHadoop%E3%81%AE%E3%82%B8%E3%83%A7%E3%83%96%E3%82%92%E5%8B%95%E3%81%8B%E3%81%99
    2. Hadoop本読書会 - 2章 MapReduce - 大規模分散技術勉強会 in 名古屋