hadoop install note

配置：
140.120.63.79 register.nchu.edu.tw FreeBSD 9.0-release
140.120.63.67 elvis.nchu.edu.tw ubuntu 11.10

the below was ubuntu install step:

1. install openssh server:
# sudo apt-get install openssh-server

2. vim /etc/hosts

140.120.63.79 register.nchu.edu.tw register

140.120.63.67 elvis.nchu.edu.tw elvis

163.1.17.139 joe

在 FreeBSD 當中也要加入 /etc/hosts

3.安裝 Java
  # sudo apt-get install sun-java6-jdk
  # sudo apt-get install sun-java6-plugi

4. adduser: hadooper:turtle

5. login hadooper user
   ssh-keygen -t dsa
   cd .ssh
   cp id_dsa.pub authorized_keys
   chmod 600 authorized_keys

6. adduser hadooper in FreeBSD
   ssh -l elvis register
   sudo adduser hadooper

7. login hadooper in FreeBSD and create public key
   ssh -l hadooper register // -l username for using to login the username
    ssh-keygen -t dsa

8. login hadooper in ubuntu and copy public key for all hadooper user

cd .ssh

ssh register "cat .ssh/id_dsa.pub" >> authorized_keys

scp authorized_keys register:.ssh/

9.

測試：WordCount.java 程式

1. 先要下載 commons-cli-1.2jar

2. 要輸入下列指令：
[/home/hadooper/src] -hadooper- javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar:${HADOOP_HOME}/commons-cli-1.2.jar WordCount.java

makefile can refer to [3]

因為機器的 os 不同，把在 elvis.nchu.edu.tw 及 register.nchu.edu.tw 的 java 環境變數設定不同，如此才可以對應到應該對映到的 classpath or bin

在 Windows 7 中使用 ssh 來登入 hadoop 系統

1. 執行 Msys Shell,
2. 設定 C:\windows\system32\drivers\etc\hosts 檔
3. 建立 RSA public key

如果沒有安裝 Msys Shell，則需要下載及安裝，不可以使用 putty。

In Windows 7 system:

1. copy id_dsa.pub from elvis in Unbutu
    Using elvis to login Unbutu system, then mount Windows 7 disk and copy id_dsa.pub into Windows 7 elvis home director.

2. change into Windows 7 system, and run msys shell.
     ssh h1453@nchc "cat .ssh/authorized_keys" >> authorized_keys

3. copy authorized_keys into nchc system
    scp authorized_keys h1453@nchc:.ssh/

4. login in nchc without pwd:
    ssh h1453@nchc

Wikipedia DataSet download:[4]

因為 DataSets 的資料量太大，將近 30 GB，而且學校的網路下載速度都一直很慢？所以就需要在家中先下載到家裡的電腦中，然後再同步到 NCHC 的 Hadoop system。

Problem:
1. 重新執行 bin/hadoop namenode -format 時，hadoop 會更新 namenode 的 ID, 此時的 ID 會與 datanode 的 ID 不一致，解決方法是把 2個 datanode 的 ID 改成與新的 namenode 一樣。實際作法為：
less /home/hadooper/dfs/name/current/VERSION
cd /home/hadooper/dfs/data/current/VERSION
vim VERSION
ssh elvis

cd /home/hadooper/dfs/data/current/VERSION
vim VERSION
2.環境變數的問題：修改 .bashrc 檔無法將 JAVA_HOME 設定起來，主要的問題在於 FreeBSD 的 .profile 檔之中又再一次設定路徑，使得之前 .bashrc 所設定的路徑被覆蓋了。
測試環境變數的指令：

3. 同步的指令經常忘記，需要記起來一下？
    $ rsyn -av -e ssh ./Makefile hadooper@register.nchu.edu.tw:src/

echo $JAVA_HOME
echo $PATH

-------------------------------------------------------------------
[1] http://kindevil.com/archives/198/
[2] http://blog.xuite.net/jyoutw/xtech/41430842
[3] http://tetralet.luna.com.tw/index.php?op=ViewArticle&articleId=185
[4] http://dumps.wikimedia.org/enwiki/

Elvis Hsieh Blog

搜尋此網誌

hadoop install note

標籤

留言

張貼留言

這個網誌中的熱門文章

CodeBlocks 多國語言的設定步驟

cmd 程式無法執行的解決步驟

洗鏡光 - DCview.com達人部落格