【大資料雙強聯手,世界排序冠軍Spark擁抱Google新PB級資料分析技術Dataflow】
http://www.ithome.com.tw/news/93669
圖片來源: GitHub
概念上還是不離data flow和memory cache的概念,只是說,granularity隨著資料量放大,系統有越多的機會去監看執行狀況和最佳化效能。
用Apache Spark來做sorting,算是牛刀小試。對效能有興趣者(國內這種人大概很少吧?)可以看看這篇報告(http://sortbenchmark.org/ApacheSpark2014.pdf),關鍵根本不在memory,而在於硬碟和網路。
沒有留言:
張貼留言