早在 98年博士班選修的「雲端程式設計」課程裡,對於 Big Data 已經有所涉略,我和 William 做了一個專題,拿 wiki data 來分析,我們使用 3 台 PC 是架設 Hadoop,使用 HDFS 及 Map/Reduce 來處理 more 20GB 的 wiki data,拿真正的 wiki data 在 3 台 Hadoop 上跑,結果是:跑不動,掛掉!這就是 Big Data。 某一天與高階主管開會,主要的目的是:處理學校儲存在 Database 中的一些資料,有位教授級的說:這就是 Big Data,當時的我有些許的無言?突然有三條線浮現眼前的感覺;如果這就是 Big Data?那麼 Apache Spark 最近應該不會那麼火紅?不是嗎? Apache Spark 是最近最火紅的 Big Data 資料處理的引擎,2009年有 UC Berkeley AMPLab 所發展,其中一位 Director:Ion Stoica 在 2011 年演講提到" What is Big Data? "所指的是那些隨時可以產生幾 GB 的資料,而如何有效的管理並且分析出有用的資訊,提供作為決策的參考。儲存於學校 DB 內的學生學籍、成績、選課、老師開課、教學、研究等資料,也許將主計、人事、出納等儲存於 DB 的資料加入分析,僅是後端所謂 value 的產出,採用早年的資訊技術,應該就可以處理,不需要用到 clustering and distributing System,如果學校這些資料是 Big Data,那麼 Apache Spark 就不會那樣的重要了。 Matei Zaharia 是 Databrick's CTO,他的論文獲得 2014 ACM Doctoral Dissertation Award ,是 Apache Spark 的主要架構,在 AMPLab 網站寫著: Matei’s thesis develops and analyzes the core ideas behind the Spark system (now known as Apache Spark ), which is taking over the Big Data analytics world. 如同 L...