電腦效能應用與安全研究室 Performance, Applications and Security Lab


我們的研究範圍很廣,從嵌入式系統、手機應用、一直到雲端計算、商務應用、資訊安全都有做。
我們的合作研究夥伴很多,包括聯發科、IBM、中研院、資策會,還有和台大、清大、交大的教授合組研發團隊
,包括高階應用處理器架構研究、虛擬化技術、異質計算、系統軟體等重要技術的研究與創新,我們很關切台灣人才與產業的未來。

2015年1月24日 星期六

巨量資料處理的新的組合:Google Cloud Dataflow + Apache Spark

這篇說到巨量資料處理的新的組合:Google Cloud Dataflow + Apache Spark

【大資料雙強聯手,世界排序冠軍Spark擁抱Google新PB級資料分析技術Dataflow】
http://www.ithome.com.tw/news/93669



圖片來源: GitHub



概念上還是不離data flow和memory cache的概念,只是說,granularity隨著資料量放大,系統有越多的機會去監看執行狀況和最佳化效能。

用Apache Spark來做sorting,算是牛刀小試。對效能有興趣者(國內這種人大概很少吧?)可以看看這篇報告(http://sortbenchmark.org/ApacheSpark2014.pdf),關鍵根本不在memory,而在於硬碟和網路。

沒有留言:

張貼留言