備忘録

知ったことを適当にメモします。

Hadoop徹底入門 第2版

HadoopとHiveの導入・サンプル実行とHive Server立ち上げぐらいで

他はざっとしか読んでいませんが、

入門書としては大変分かりやすいです。

 

ただ、Hadoopのサンプルプログラム(モンテカルロ法)を書籍通りの引数で実行すると

メモリ不足で処理速度が極端に低下する自体が発生…。

マップ1つにつき64MB食うくせにマップ出力用の使用メモリが100MBと

かなり少ないので、引数のマップ数を減らすか設定ファイルいじるかしましょう。

 

また、書籍内のほとんどでdfs fsやhadoop dfsオプションを使用していますが、

これは非推奨であり、hdfsコマンドのdfsが代わりに実行されます。

hadoop fsとの違いがイマイチ分からないので、私はhadoopの方を使ってます。

 

指摘は既に入ってるようです。

今ちょっと手元に書籍が無いので確実とは言えませんが、

hadoop dfsオプションもどこかで使ってたような…見間違いかな。

 

 

Hadoop徹底入門 第2版 オープンソース分散処理環境の構築

Hadoop徹底入門 第2版 オープンソース分散処理環境の構築