So-net無料ブログ作成

インフラエンジニアのためのHadoop情報 クラスタ構築その1 [Hadoop]

前回では、1台で動かしてみましたが、今回は複数台で動かします。
構成として、NameNodeとJobTracker用に1台、DataNodeとTaskTracker用に2台を想定します。
Cloudera版のHadoopでは、altenertiveを使って、1台での起動、擬似分散での起動、クラスタでの起動を設定ファイルを切り替えます。まずは現在の設定を見てみましょう。
$ sudo /usr/sbin/alternatives --display hadoop-0.20-conf
hadoop-0.20-conf - ステータスは手動です。
リンクは現在 /etc/hadoop-0.20/conf.pseudo を指しています。
/etc/hadoop-0.20/conf.empty - 優先項目 10
/etc/hadoop-0.20/conf.pseudo - 優先項目 30
現在の「最適」バージョンは /etc/hadoop-0.20/conf.pseudo です。

クラスタ用の設定ファイルを一から作成するのは面倒なので、擬似分散用のものをコピーして必要なところだけ修正することにします。3台全てが対象です。
$ sudo cp -r /etc/hadoop-0.20/conf.pseudo /etc/hadoop-0.20/conf.cluster

クラスタ用のaltenertivesを登録します。
$ sudo /usr/sbin/alternatives --install /etc/hadoop-0.20/conf hadoop-0.20-conf \
/etc/hadoop-0.20/conf.cluster 50
$ sudo /usr/sbin/alternatives --display hadoop-0.20-conf
hadoop-0.20-conf - ステータスは手動です。
リンクは現在 /etc/hadoop-0.20/conf.pseudo を指しています。
/etc/hadoop-0.20/conf.empty - 優先項目 10
/etc/hadoop-0.20/conf.pseudo - 優先項目 30
/etc/hadoop-0.20/conf.cluster - 優先項目 50
現在の「最適」バージョンは /etc/hadoop-0.20/conf.cluster です。

alternativeをクラスタ用のものに切り替えます。
$ sudo /usr/sbin/alternatives --set hadoop-0.20-conf /etc/hadoop-0.20/conf.cluster

切り替わっていることを確認します。
$ sudo /usr/sbin/alternatives --display hadoop-0.20-conf
hadoop-0.20-conf - ステータスは手動です。
リンクは現在 /etc/hadoop-0.20/conf.cluster を指しています。
/etc/hadoop-0.20/conf.empty - 優先項目 10
/etc/hadoop-0.20/conf.pseudo - 優先項目 30
/etc/hadoop-0.20/conf.cluster - 優先項目 50
現在の「最適」バージョンは /etc/hadoop-0.20/conf.cluster です。

クラスタを構成する全てのサーバで、NameNodeを担当するサーバのアドレスを参照するように設定します。
/etc/hadoop-0.20/conf.cluster/core-site.xmlを編集して、
  fs.default.name
   hdfs://localhost:8020

部分を
  fs.default.name
   hdfs://srv1.example.com:8020

に変更します。ここでは、srv1.example.comがNameNodeのサーバアドレス、ポートは8020番を使用する例です。ポート番号は必要に応じて変更してください。

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。

×

この広告は1年以上新しい記事の更新がないブログに表示されております。