Hadoop徹底入門 第2版
HadoopとHiveの導入・サンプル実行とHive Server立ち上げぐらいで
他はざっとしか読んでいませんが、
入門書としては大変分かりやすいです。
ただ、Hadoopのサンプルプログラム(モンテカルロ法)を書籍通りの引数で実行すると
メモリ不足で処理速度が極端に低下する自体が発生…。
マップ1つにつき64MB食うくせにマップ出力用の使用メモリが100MBと
かなり少ないので、引数のマップ数を減らすか設定ファイルいじるかしましょう。
また、書籍内のほとんどでdfs fsやhadoop dfsオプションを使用していますが、
これは非推奨であり、hdfsコマンドのdfsが代わりに実行されます。
hadoop fsとの違いがイマイチ分からないので、私はhadoopの方を使ってます。
指摘は既に入ってるようです。
今ちょっと手元に書籍が無いので確実とは言えませんが、
hadoop dfsオプションもどこかで使ってたような…見間違いかな。
その通りです。ご指摘ありがとうございます! RT @aratafuji: p.57の"sudo -u hdfs dfs fs -~"の記述は全部"sudo -u hdfs hdfs dfs -~"の間違いか?
— Kenichiro HAMANO (@hamaken) 2013, 8月 1
Hadoop徹底入門 第2版 オープンソース分散処理環境の構築
- 作者: 太田一樹,岩崎正剛,猿田浩輔,下垣徹,藤井達朗,山下真一,濱野賢一朗
- 出版社/メーカー: 翔泳社
- 発売日: 2013/07/09
- メディア: 大型本
- この商品を含むブログ (5件) を見る