Hadoop導入まとめ
- Hadoopインストール 下記リンクが詳しい(Ubuntu)
- インストール確認(コマンド) 下記コマンドを実行して、インストールが正常に行われているかどうかを確認すると良い。
- Hadoopの起動
- ファイルの転送(to server)
- ファイルの転送(to local)
- lsコマンド
- インストール確認(ブラウザ越し) Webブラウザ越しに、起動中かどうかを確認できる。
- Name Node http://localhost:50070/
- Job Tracker http://localhost:50030/
- プログラム実行
- クラスファイル クラスファイルを置いてあるパスをconf/hadoop-env.shに書き、下記コマンドを実行。
- jarファイル 下記コマンドを実行。
- Eclipseからの実行/デバッグ
- デバッグ/実行設定画面 ・Package Explorerで、実行したいファイルで右クリック。
- Argumentsタブ Argumentsタブを選択し、下記を設定する。
- Classpathタブ
- 参考サイト Hadoop WordCountメモ(Hishidama's Hadoop tutorial WordCount Memo)
kkaneko.com -
※ 環境変数(JAVA_HOME,HADOOP_CLASSPATH等)は、必ずconf/hadoop-env.shに登録する事。
※ conf/core-site.xmlの設定において、hadoop.tmp.dirの値を、tmp以外にする事。tmpは一時保存用ディレクトリなので、PCの終了時に中身が全部消えてしまう。
※ 上記リンク先では、擬似分散環境を構築している模様。スタンドアロンの場合は、conf/core-site.xmlのfs.default.nameの値をローカルなフォルダに設定しておく事。
$start-all.shと入力するとHadoopが起動する。
(hadoop/binのパスを通しておく事。)
$hadoop fs -put ファイル名 サーバ側ファイル名サーバ側ファイル名は、入力しなくとも良い。
$hadoop fs -get ファイル名 ローカルファイル名ローカルファイル名は、入力しなくとも良い。
$hadoop fs -ls サーバ側のファイル一覧が見れる。
$hadoop クラス名 引数...
$hadoop jar JARファイル 引数...JARファイルは、パスも指定する事。
・Run As -> Run(Debug) Configuration をクリック。
・Java Applicationで右クリック -> New
Program arguments には、プログラムの引数を設定する。 VM arguments には、次のものを設定する。 -Xmx1000m -Dhadoop.log.dir=hadoopのインストール先/logs -Dhadoop.log.file=hadoop.log -Dhadoop.home.dir=hadoopのインストール先 -Dhadoop.id.str=host -Dhadoop.root.logger=INFO,console -Dhadoop.policy.file=hadoop-policy.xml