電腦效能應用與安全研究室 Performance, Applications and Security Lab


我們的研究範圍很廣,從嵌入式系統、手機應用、一直到雲端計算、商務應用、資訊安全都有做。
我們的合作研究夥伴很多,包括聯發科、IBM、中研院、資策會,還有和台大、清大、交大的教授合組研發團隊
,包括高階應用處理器架構研究、虛擬化技術、異質計算、系統軟體等重要技術的研究與創新,我們很關切台灣人才與產業的未來。

2015年10月9日 星期五

大數據分析與深度資料分析

我覺得很有趣,在最近的討論中,發現似乎有些朋友把大數據分析(big data analytic)和深度數據分析(deep data analytic)混為一談。實際上,「大」和「深」是不同的面相,在學理上應該要區分清楚。

例如我們做圖像辨識,不見得要用很多的數據才能做,如果模型深度夠高,也可以做得好,但是如果能拿到大數據的話,有可能會更好,至於好多少就要看狀況了。這時候因為在有限的運算能力和等待時間的限制下,研究者不可能又要深又要大,必須有所取捨,因此應該就「大」和「深」這兩個面相分別研究和綜合比較、探討解決方案的優劣。

有關「大數據」相關的研究,基本上談的是在可取得大數據的前提下,如何探索新的應用、分析方法、運算技術、科學理論,這個我在2013年有篇文章(http://hungsh-ntucsie.blogspot.tw/2013/04/big-data_18.html)略微說過了。後來應計算機中心的邀請,寫了一篇Big Data技術淺論(http://www.cc.ntu.edu.tw/chinese/epaper/0029/20140620_2904.html)

雖然迄今大數據仍然有其不大嚴謹的定義,大部份大數據產業中的公司,都繼續使用3V:量(Volume,資料大小)、速(Velocity,資料輸入輸出的速度)與多變(Variety,多樣性)來描述大數據。(請參考https://zh.wikipedia.org/wiki/大數據),其中資料的數量不能太低,否則即便運算耗時,也只能算是深度數據分析而已。

通常我們談的大數據,是「原始資料」的大小,各位如果想知道數據之間的關連性,那麼在分析N筆原始資料的過程中,有可能衍生出N平方,甚至N的多次方的中間資料,但即便這些中間資料再多,也不能算是大數據。

有關深度數據分析,可以看看資料探勘(data mining)和機器學習(machine learning)的研究者的作法,他們常常用深度的分析方法或是模型來找隱藏在資料之間的關聯性,但他們不見得會說自己在做大數據分析。有些專家會覺得用「小」數據就能解決問題才厲害呢!

還有一些早在大數據或深度數據分析之前就有的領域,例如高效能運算(high-performance computing),有的將原始資料轉成圖形,再轉成大矩陣運算的解法,有的運用複雜的模型進行精確的模擬,運算中途所產生的資料量很大,計算的時間長,所以很早就開始使用超級電腦來解題。但這些老問題,如果不符合3V定義,我們也不會說是在做大數據分析,不然我可說我在20年前就是大數據分析的專家了。

因為大數據取得不易,而且所需的設備成本高,所以大多數人做的比較像是深度數據分析,但是有些時候不經意或刻意套上了大數據的名字,可能是因為看起來比較時髦或響亮。實際上,只要能把問題解決,不見得一定要大數據,而名稱訂得響亮,頂多是用來騙騙外行人的。但我想我們做學術的,應該稍微講究一點,把概念和名相講清楚,讓朋友們不會輕易被唬弄。

沒有留言:

張貼留言