So-net無料ブログ作成
  • ブログをはじめる
  • ログイン
-| 2010年09月15日 |2010年09月21日 ブログトップ

インフラエンジニアのためのHadoop情報 Hadoopインストール [Hadoop]

インストールする環境は、CentOS5.xを前提として話を進めます。
インストールするHadoopはCloudera版のCDH2というパッケージです。
これを使う理由は、運用時にssh環境を必要としない、サービスの管理者と利用者とを分けて管理するのに便利なように作られているためです。
CDH2についてのインストールの詳細については、
https://docs.cloudera.com/display/DOC/Hadoop+Installation+Documentation+for+CDH2
を参照してください。

Hadoopをインストールする前に、HadoopはJavaで動いているので、まずはこれをインストールすることから始めます。
JavaはSun、もといOracleのJDK6をダウンロードしてインストールします。
(OpenJDKでは動きません)
Javaのインストールが完了したら、CDH2パッケージをインストールするわけですが、CDH2はインストールにyumを利用します。そのためのレポジトリを設定します。
$ cd /etc/yum.repos.d/
$ sudo wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh2.repo

Hadoop本体をyumでインストール。
$ sudo yum install hadoop-0.20

動作確認のためと、設定ファイルのサンプル用にpseudo-distributed mode用の設定ファイルもインストール。
$ sudo yum install hadoop-0.20-conf-pseudo

nice!(0)  コメント(108)  トラックバック(0) 
共通テーマ:blog

インフラエンジニアのためのHadoop情報 [Hadoop]

昨今、大規模データの分散環境での集計に「Hadoop」がもてはやされています。
情報も増えてきて、実際に自分のPCでMapReduceのサンプルプログラムを走らせてみた人も多いのではないでしょうか。
しかし、「とりあえず起動してみた」とか「MapReduceが動いた」という情報はいっぱいあっても、実際に複数台のサーバ環境でクラスタ構成を組み、運用を開始するための実践的な情報は少ないような気がします。
ここでは、Hadoopで10数台のクラスタ環境を構築して運用までたどり着いた経験から、環境構築をするエンジニアのためのポイントとなる情報を書いていこうと思います。

なお、「Hadoopって何」「MapReduceってどうやって作る?」みたいなお話は、優良な情報がいろんなサイトにいっぱいあるので、そちらに譲るとします。
タグ:Hadoop MapReduce

So-net 開発者ブログを始めます。

So-net の開発で利用しているオープンソースの技術について、検証した結果などを紹介してきます。
最初は、Hadoopについて紹介します。

-| 2010年09月15日 |2010年09月21日 ブログトップ

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。

×

この広告は180日以上新しい記事の更新がないブログに表示されております。