跳到主要內容

hadoop install note


配置:
140.120.63.79  register.nchu.edu.tw    FreeBSD 9.0-release
140.120.63.67  elvis.nchu.edu.tw          ubuntu 11.10

the below was ubuntu install step:

1. install openssh server:
# sudo apt-get install openssh-server

2. vim /etc/hosts


140.120.63.79  register.nchu.edu.tw    register
140.120.63.67  elvis.nchu.edu.tw          elvis
163.1.17.139    joe


在 FreeBSD 當中也要加入 /etc/hosts

3.安裝 Java
  # sudo apt-get install sun-java6-jdk
  # sudo apt-get install sun-java6-plugi


4. adduser: hadooper:turtle

5. login hadooper user
    ssh-keygen -t dsa
    cd .ssh
    cp id_dsa.pub authorized_keys
    chmod 600 authorized_keys

6. adduser hadooper in FreeBSD
    ssh -l elvis register
    sudo adduser hadooper

7. login hadooper in FreeBSD and create public key
    ssh -l hadooper register // -l username for using to login the username
    ssh-keygen -t dsa

8.  login hadooper in ubuntu and copy public key for all hadooper user
     cd .ssh
     ssh register "cat  .ssh/id_dsa.pub" >> authorized_keys
     scp authorized_keys   register:.ssh/

9.


測試:WordCount.java 程式

1. 先要下載 commons-cli-1.2jar

2. 要輸入下列指令:
[/home/hadooper/src] -hadooper- javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar:${HADOOP_HOME}/commons-cli-1.2.jar  WordCount.java


makefile can refer to [3]


因為機器的 os 不同,把在 elvis.nchu.edu.tw 及 register.nchu.edu.tw 的 java 環境變數設定不同,如此才可以對應到應該對映到的 classpath or bin

在 Windows 7 中使用 ssh 來登入 hadoop 系統

1. 執行 Msys Shell,
2. 設定 C:\windows\system32\drivers\etc\hosts 檔
3. 建立 RSA public key

如果沒有安裝 Msys Shell,則需要下載及安裝,不可以使用 putty。

In Windows 7 system:

1. copy id_dsa.pub from elvis in Unbutu
    Using elvis to login Unbutu system, then mount Windows 7 disk and copy id_dsa.pub into Windows 7 elvis home director.

2. change into Windows 7 system, and run msys shell.
     ssh h1453@nchc "cat .ssh/authorized_keys" >> authorized_keys

3. copy authorized_keys into nchc system
    scp authorized_keys h1453@nchc:.ssh/

4. login in nchc without pwd:
    ssh h1453@nchc

Wikipedia DataSet download:[4]

因為 DataSets 的資料量太大,將近 30 GB,而且學校的網路下載速度都一直很慢?所以就需要在家中先下載到家裡的電腦中,然後再同步到 NCHC  的 Hadoop system。
 
Problem:
1. 重新執行 bin/hadoop namenode -format 時,hadoop 會更新 namenode 的 ID, 此時的 ID 會與 datanode 的 ID 不一致,解決方法是把 2個 datanode 的 ID 改成與新的 namenode 一樣。實際作法為:
less /home/hadooper/dfs/name/current/VERSION
cd /home/hadooper/dfs/data/current/VERSION
vim VERSION
ssh elvis

cd /home/hadooper/dfs/data/current/VERSION
vim VERSION
2.環境變數的問題:修改 .bashrc 檔無法將 JAVA_HOME 設定起來,主要的問題在於 FreeBSD 的 .profile 檔之中又再一次設定路徑,使得之前 .bashrc 所設定的路徑被覆蓋了。
測試環境變數的指令:

3. 同步的指令經常忘記,需要記起來一下?
    $ rsyn -av -e ssh ./Makefile hadooper@register.nchu.edu.tw:src/

echo $JAVA_HOME
echo $PATH


-------------------------------------------------------------------
[1] http://kindevil.com/archives/198/
[2] http://blog.xuite.net/jyoutw/xtech/41430842
[3] http://tetralet.luna.com.tw/index.php?op=ViewArticle&articleId=185
[4] http://dumps.wikimedia.org/enwiki/

留言

這個網誌中的熱門文章

CodeBlocks 多國語言的設定步驟

多年來一直都是使用 CodeBlocks 英文的介面,不曾想過要將 CodeBlocks 設定成多國語言的開發環境,對於不習慣於英文介面的國人,設定中文的使用介面是非常需要的環境,在 CodeBlocks 論壇有一篇文章提到 :Do you know http://wiki.codeblocks.org/index.php?title=Internationalization ?這個連結說明在 Windows 系統如何設定 CodeBlocks 成為 Internationalization 的環境,整個設定過程如下: 到 CodeBlocks 翻譯文件網站 下載 .mo 檔案:下載時需要 Ubuntu One 的帳號及密碼,登入後點選 .mo 檔案(不要下載 .po 檔是可編輯檔) 系統會傳送一封信件,點選信件的連結,將 .mo 檔案下載 將檔案複製到 C:\Codeblocks\share\CodeBlocks\locale\zh_TW 目錄(沒有這個目錄請自己建立) 開啟 CodeBlocks >> Setting >> Environment >> View >> Internationalization 選項打勾 >> 點選 Chinese 重新開啟 CodeBlocks 要加入其他語言的 .mo 檔案,則在 locale 目錄中新增其他語言的目錄名稱,例如: 德國 de_DE,這樣 CodeBlocks 就是多國語言的開發環境了。 當如果要恢復英文的介面,只要取消 Internationalization 的選項勾選,然後再次重新開啟 CodeBlocks 就回到英文的開發環境。 後記: CodeBlocks 翻譯文件網站 要下載 .mo or .po 檔案需要等待系統回復信件到 Email 信箱,無法及時處理,將這些檔案儲存在 Google Driver 的 src/CodeBlocks 目錄,以後可以從這裡直接取用。

cmd 程式無法執行的解決步驟

因為要設定 cmd 的編碼方式為 Unicode 編碼( chcp 65001),可能不小心修改了編碼,而導致cmd 無法開啟,主要的原因是:「cmd 變成沒有編碼」,所以才造成 cmd 無法開啟。在 Windows 8 中要恢復 cmd 編碼的步驟如下: 1. 滑鼠移到左上角,會出現功能的選項,點選「搜尋」的圖示 2. 在輸入的格子中,輸入「cmd」但是不要按下 enter 3. 滑鼠移到「cmd 命令提示字元」,,按下「滑鼠右鍵」 4. 下面會出現一些選項,點選「開啟檔案位置」,如此可以找到 cmd 命令提示字元的位置 5. 在「 命令提示字元」檔案中按下滑鼠右鍵,並點選「內容」 6. 點選「選項」,把「950 - Big 5 繁體中文」的編碼加入  

洗鏡光 - DCview.com達人部落格

要找 working set 的資料,從 [1] 的網站中得到他寫的作業系統筆記,而他筆記的內容大部分是從洗鏡光老師投影片的內容整理而來,於是 google "洗鏡光" 找的洗鏡光老師的投影片,結果是:「洗鏡光 - DCview.com達人部落格」,這是介紹「相機」的網站阿,怎麼是洗鏡光 老師的 blog 呢? 後來自己認為:「洗鏡光老師不可能沒有自己的網頁」,於是在「程式設計俱樂部」論壇[2]中找到洗鏡光老師的發言,其中有老師的英文名字(   shene ),再使用 shene 找,於是在找到洗鏡光老師[3]在美國的網站。從老師英文的網站中,在得知老師在台灣的網站就是「洗鏡光 - DCview.com達人部落格」,繞了一大圈才在「文章列表-- 電子計算機(電腦)科學 (3)」中,真正找到洗鏡光老師的投影片。 在 blog 中,另外有2篇文章,有一篇是說明「浮點數精確度」的問題,是值得詳細閱讀。 -------------------------------------------------------------- [1]  http://nixchun.pixnet.net/blog/category/523852 [2]  http://www.programmer-club.com.tw/ [3]  http://blog.dcview.com/blog.php?m=Bj8CZQ%3D%3D