Hadoop導入まとめ

Hadoop導入まとめ

    目次
  1. Hadoopインストール
  2. インストール確認(コマンド)
  3. インストール確認(ブラウザ越し)
  4. プログラム実行
  5. エクリプスによる実行/デバッグ
  6. 参考サイト


  1. Hadoopインストール
  2. 下記リンクが詳しい(Ubuntu
    kkaneko.com - 

    環境変数JAVA_HOME,HADOOP_CLASSPATH等)は、必ずconf/hadoop-env.shに登録する事。
    ※ conf/core-site.xmlの設定において、hadoop.tmp.dirの値を、tmp以外にする事。tmpは一時保存用ディレクトリなので、PCの終了時に中身が全部消えてしまう。
    ※ 上記リンク先では、擬似分散環境を構築している模様。スタンドアロンの場合は、conf/core-site.xmlのfs.default.nameの値をローカルなフォルダに設定しておく事。
  3. インストール確認(コマンド)
  4. 下記コマンドを実行して、インストールが正常に行われているかどうかを確認すると良い。
    1. Hadoopの起動
    2. $start-all.sh
      と入力するとHadoopが起動する。
      hadoop/binのパスを通しておく事。)
    3. ファイルの転送(to server)
    4. $hadoop fs -put ファイル名 サーバ側ファイル名
      サーバ側ファイル名は、入力しなくとも良い。
    5. ファイルの転送(to local)
    6. $hadoop fs -get ファイル名 ローカルファイル名
      ローカルファイル名は、入力しなくとも良い。
    7. lsコマンド
    8. $hadoop fs -ls
      サーバ側のファイル一覧が見れる。
      
  5. インストール確認(ブラウザ越し)
  6. Webブラウザ越しに、起動中かどうかを確認できる。
    1. Name Node
    2. http://localhost:50070/
    3. Job Tracker
    4. http://localhost:50030/
  7. プログラム実行
    1. クラスファイル
    2. クラスファイルを置いてあるパスをconf/hadoop-env.shに書き、下記コマンドを実行。
      $hadoop クラス名 引数...
    3. jarファイル
    4. 下記コマンドを実行。
      $hadoop jar JARファイル 引数...
      JARファイルは、パスも指定する事。
  8. Eclipseからの実行/デバッグ
    1. デバッグ/実行設定画面
    2. ・Package Explorerで、実行したいファイルで右クリック。
      ・Run As -> Run(Debug) Configuration をクリック。
      Java Applicationで右クリック -> New
    3. Argumentsタブ
    4. Argumentsタブを選択し、下記を設定する。
      Program arguments には、プログラムの引数を設定する。
      
      VM arguments には、次のものを設定する。
       -Xmx1000m
       -Dhadoop.log.dir=hadoopのインストール先/logs
       -Dhadoop.log.file=hadoop.log
       -Dhadoop.home.dir=hadoopのインストール先
       -Dhadoop.id.str=host
       -Dhadoop.root.logger=INFO,console
       -Dhadoop.policy.file=hadoop-policy.xml
      
    5. Classpathタブ
      1. Add External JARsで次のファイルを対Kあ
      2. hadoopのインストール先/lib以下の*.jarファイル全部。
        hadoopのインストール先/lib/jsp-2.1以下の*.jarファイル全部。
      3. Advanced → Add External Folderで次のフォルダを追加
      4. hadoopのインストール先/conf
        設定後Upボタンを押して、User Entries内の一番上にする。
  9. 参考サイト
  10. Hadoop WordCountメモ(Hishidama's Hadoop tutorial WordCount Memo)