跳到主要內容

Big Data 是什麼?

早在 98年博士班選修的「雲端程式設計」課程裡,對於 Big Data 已經有所涉略,我和 William 做了一個專題,拿 wiki data 來分析,我們使用 3 台 PC 是架設 Hadoop,使用 HDFS  及 Map/Reduce 來處理 more 20GB 的 wiki data,拿真正的 wiki data 在 3 台 Hadoop 上跑,結果是:跑不動,掛掉!這就是 Big Data。

某一天與高階主管開會,主要的目的是:處理學校儲存在 Database 中的一些資料,有位教授級的說:這就是 Big Data,當時的我有些許的無言?突然有三條線浮現眼前的感覺;如果這就是 Big Data?那麼 Apache Spark 最近應該不會那麼火紅?不是嗎?

Apache Spark 是最近最火紅的 Big Data 資料處理的引擎,2009年有 UC Berkeley AMPLab 所發展,其中一位 Director:Ion Stoica 在 2011 年演講提到"What is Big Data?"所指的是那些隨時可以產生幾 GB 的資料,而如何有效的管理並且分析出有用的資訊,提供作為決策的參考。儲存於學校 DB 內的學生學籍、成績、選課、老師開課、教學、研究等資料,也許將主計、人事、出納等儲存於 DB 的資料加入分析,僅是後端所謂 value 的產出,採用早年的資訊技術,應該就可以處理,不需要用到 clustering and distributing System,如果學校這些資料是 Big Data,那麼 Apache Spark 就不會那樣的重要了。

Matei Zaharia 是 Databrick's CTO,他的論文獲得 2014 ACM Doctoral Dissertation Award,是 Apache Spark 的主要架構,在 AMPLab 網站寫著:

Matei’s thesis develops and analyzes the core ideas behind the Spark system (now known as Apache Spark), which is taking over the Big Data analytics world.

如同 LLVM 一般,這也是一個顛覆資訊技術的重要 idea。 

留言

這個網誌中的熱門文章

CodeBlocks 多國語言的設定步驟

多年來一直都是使用 CodeBlocks 英文的介面,不曾想過要將 CodeBlocks 設定成多國語言的開發環境,對於不習慣於英文介面的國人,設定中文的使用介面是非常需要的環境,在 CodeBlocks 論壇有一篇文章提到 :Do you know http://wiki.codeblocks.org/index.php?title=Internationalization ?這個連結說明在 Windows 系統如何設定 CodeBlocks 成為 Internationalization 的環境,整個設定過程如下: 到 CodeBlocks 翻譯文件網站 下載 .mo 檔案:下載時需要 Ubuntu One 的帳號及密碼,登入後點選 .mo 檔案(不要下載 .po 檔是可編輯檔) 系統會傳送一封信件,點選信件的連結,將 .mo 檔案下載 將檔案複製到 C:\Codeblocks\share\CodeBlocks\locale\zh_TW 目錄(沒有這個目錄請自己建立) 開啟 CodeBlocks >> Setting >> Environment >> View >> Internationalization 選項打勾 >> 點選 Chinese 重新開啟 CodeBlocks 要加入其他語言的 .mo 檔案,則在 locale 目錄中新增其他語言的目錄名稱,例如: 德國 de_DE,這樣 CodeBlocks 就是多國語言的開發環境了。 當如果要恢復英文的介面,只要取消 Internationalization 的選項勾選,然後再次重新開啟 CodeBlocks 就回到英文的開發環境。 後記: CodeBlocks 翻譯文件網站 要下載 .mo or .po 檔案需要等待系統回復信件到 Email 信箱,無法及時處理,將這些檔案儲存在 Google Driver 的 src/CodeBlocks 目錄,以後可以從這裡直接取用。

cmd 程式無法執行的解決步驟

因為要設定 cmd 的編碼方式為 Unicode 編碼( chcp 65001),可能不小心修改了編碼,而導致cmd 無法開啟,主要的原因是:「cmd 變成沒有編碼」,所以才造成 cmd 無法開啟。在 Windows 8 中要恢復 cmd 編碼的步驟如下: 1. 滑鼠移到左上角,會出現功能的選項,點選「搜尋」的圖示 2. 在輸入的格子中,輸入「cmd」但是不要按下 enter 3. 滑鼠移到「cmd 命令提示字元」,,按下「滑鼠右鍵」 4. 下面會出現一些選項,點選「開啟檔案位置」,如此可以找到 cmd 命令提示字元的位置 5. 在「 命令提示字元」檔案中按下滑鼠右鍵,並點選「內容」 6. 點選「選項」,把「950 - Big 5 繁體中文」的編碼加入  

洗鏡光 - DCview.com達人部落格

要找 working set 的資料,從 [1] 的網站中得到他寫的作業系統筆記,而他筆記的內容大部分是從洗鏡光老師投影片的內容整理而來,於是 google "洗鏡光" 找的洗鏡光老師的投影片,結果是:「洗鏡光 - DCview.com達人部落格」,這是介紹「相機」的網站阿,怎麼是洗鏡光 老師的 blog 呢? 後來自己認為:「洗鏡光老師不可能沒有自己的網頁」,於是在「程式設計俱樂部」論壇[2]中找到洗鏡光老師的發言,其中有老師的英文名字(   shene ),再使用 shene 找,於是在找到洗鏡光老師[3]在美國的網站。從老師英文的網站中,在得知老師在台灣的網站就是「洗鏡光 - DCview.com達人部落格」,繞了一大圈才在「文章列表-- 電子計算機(電腦)科學 (3)」中,真正找到洗鏡光老師的投影片。 在 blog 中,另外有2篇文章,有一篇是說明「浮點數精確度」的問題,是值得詳細閱讀。 -------------------------------------------------------------- [1]  http://nixchun.pixnet.net/blog/category/523852 [2]  http://www.programmer-club.com.tw/ [3]  http://blog.dcview.com/blog.php?m=Bj8CZQ%3D%3D