So-net無料ブログ作成
  • ブログをはじめる
  • ログイン

インフラエンジニアのためのHadoop情報 動かしてみる [Hadoop]

pseudo distributedモードとは、擬似分散のことで、1台の中で分散モードと同じような状態でプロセスを起動させます。とりあえずの動作確認にはもってこいです。
それでは、pseudo distributedモードで起動してみます。
hadoop-0.20-conf-pseudoをインストールすると、/etc/hadoop-0.20/conf.pseudoに設定済みのファイルが置かれ、/etc/hadoop-0.20/confにシンボリックリンクが張られます。
起動は、/etc/init.d/に置かれたスクリプトを使います。
$ sudo /sbin/service hadoop-0.20-namenode start
$ sudo /sbin/service hadoop-0.20-jobtracker start
$ sudo /sbin/service hadoop-0.20-tasktracker start
$ sudo /sbin/service hadoop-0.20-datanode start

起動するとJavaのプロセスが立ち上がるので、確認してみます。
$ sudo /usr/java/jdk1.6.0_20/bin/jps
11974 NameNode
12327 TaskTracker
12097 DataNode
16228 JobTracker

起動スクリプトに対応した4つのプロセスが動いているのが確認できます。

Hadoopに添付されているMapReduceのサンプルを動かしてます。
Hadoopの設定ファイルからdfsで始まる文字列を抽出します(grep)。
$ hadoop fs -mkdir input
$ hadoop fs -put /etc/hadoop-0.20/conf/*.xml input
$ hadoop jar /usr/lib/hadoop-0.20/hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
$ hadoop fs -ls output
Found 2 items
drwxr-xr-x  - kin supergroup       0 2010-06-24 14:51 /user/kin/output/_logs
-rw-r--r--  2 kin supergroup      62 2010-06-24 14:51 /user/kin/output/part-00000

出力結果を確認する。
$ hadoop fs -cat output/part-00000
1       dfs.name.dir
1       dfs.permissions
1       dfs.replication
1       dfsadmin


この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。

×

この広告は180日以上新しい記事の更新がないブログに表示されております。