只是想寫 Just feel like writing: 巨量資料處理的新的組合：Google Cloud Dataflow + Apache Spark

電腦效能應用與安全研究室 Performance, Applications and Security Lab

新進同學必讀　實驗室簡介 　個人簡歷 　
論文列表 　
學思歷程 　PAS Lab 家族成員

我們的研究範圍很廣，從嵌入式系統、手機應用、一直到雲端計算、商務應用、資訊安全都有做。

我們的合作研究夥伴很多，包括聯發科、IBM、中研院、資策會，還有和台大、清大、交大的教授合組研發團隊

，包括高階應用處理器架構研究、虛擬化技術、異質計算、系統軟體等重要技術的研究與創新，我們很關切台灣人才與產業的未來。

2015年1月24日星期六

巨量資料處理的新的組合：Google Cloud Dataflow + Apache Spark

這篇說到巨量資料處理的新的組合：Google Cloud Dataflow + Apache Spark

【大資料雙強聯手，世界排序冠軍Spark擁抱Google新PB級資料分析技術Dataflow】
http://www.ithome.com.tw/news/93669

圖片來源: GitHub

概念上還是不離data flow和memory cache的概念，只是說，granularity隨著資料量放大，系統有越多的機會去監看執行狀況和最佳化效能。

用Apache Spark來做sorting，算是牛刀小試。對效能有興趣者（國內這種人大概很少吧？）可以看看這篇報告（http://sortbenchmark.org/ApacheSpark2014.pdf），關鍵根本不在memory，而在於硬碟和網路。

只是想寫 Just feel like writing

電腦效能應用與安全研究室 Performance, Applications and Security Lab

2015年1月24日星期六

巨量資料處理的新的組合：Google Cloud Dataflow + Apache Spark

沒有留言:

張貼留言

電腦效能應用與安全研究室 Performance, Applications and Security Lab

2015年1月24日 星期六

巨量資料處理的新的組合：Google Cloud Dataflow + Apache Spark

沒有留言:

張貼留言

2015年1月24日星期六