Big Data 是什麼？

早在 98年博士班選修的「雲端程式設計」課程裡，對於 Big Data 已經有所涉略，我和 William 做了一個專題，拿 wiki data 來分析，我們使用 3 台 PC 是架設 Hadoop，使用 HDFS 及 Map/Reduce 來處理 more 20GB 的 wiki data，拿真正的 wiki data 在 3 台 Hadoop 上跑，結果是：跑不動，掛掉！這就是 Big Data。

某一天與高階主管開會，主要的目的是：處理學校儲存在 Database 中的一些資料，有位教授級的說：這就是 Big Data，當時的我有些許的無言？突然有三條線浮現眼前的感覺；如果這就是 Big Data？那麼 Apache Spark 最近應該不會那麼火紅？不是嗎？

Apache Spark 是最近最火紅的 Big Data 資料處理的引擎，2009年有 UC Berkeley AMPLab 所發展，其中一位 Director:Ion Stoica 在 2011 年演講提到"What is Big Data?"所指的是那些隨時可以產生幾 GB 的資料，而如何有效的管理並且分析出有用的資訊，提供作為決策的參考。儲存於學校 DB 內的學生學籍、成績、選課、老師開課、教學、研究等資料，也許將主計、人事、出納等儲存於 DB 的資料加入分析，僅是後端所謂 value 的產出，採用早年的資訊技術，應該就可以處理，不需要用到 clustering and distributing System，如果學校這些資料是 Big Data，那麼 Apache Spark 就不會那樣的重要了。

Matei Zaharia 是 Databrick's CTO，他的論文獲得 2014 ACM Doctoral Dissertation Award，是 Apache Spark 的主要架構，在 AMPLab 網站寫著：

Matei’s thesis develops and analyzes the core ideas behind the Spark system (now known as Apache Spark), which is taking over the Big Data analytics world.

如同 LLVM 一般，這也是一個顛覆資訊技術的重要 idea。

Elvis Hsieh Blog

搜尋此網誌

Big Data 是什麼？

留言

張貼留言

這個網誌中的熱門文章

CodeBlocks 多國語言的設定步驟

cmd 程式無法執行的解決步驟

洗鏡光 - DCview.com達人部落格