電腦效能應用與安全研究室 Performance, Applications and Security Lab


我們的研究範圍很廣,從嵌入式系統、手機應用、一直到雲端計算、商務應用、資訊安全都有做。
我們的合作研究夥伴很多,包括聯發科、IBM、中研院、資策會,還有和台大、清大、交大的教授合組研發團隊
,包括高階應用處理器架構研究、虛擬化技術、異質計算、系統軟體等重要技術的研究與創新,我們很關切台灣人才與產業的未來。

2015年10月9日 星期五

學校特色與大數據分析

引用自報導:『清大累積15年數據統計,發現繁星推薦、個人申請入學的學生,學業成績排名都比指考入學的學生優異,且指考生學科成績「二一」及休退學比率都最高,推翻各界對甄選生「學習不完整」想像。』(註)

我個人一向是鼓勵高中教學適性化,同意入學管道多元化,以及反對走回頭路將學測延後... 這些我個人由個人觀察、質性分析、推理所得的想法,如果能夠有實證資料來佐證,很好。

我也很贊成每個大學要建立學校的特色,正如同我希望每個高中也應該嘗試要建立特色,如此每位學生才會有特色。有特色,才會有較扎實的自信心,才會較主動為自己負責,而不是一輩子都活在他人所給予的框架中。

學校要有特色的話,就是自行決定要如何收學生,要如何教學生,政府和家長不要過度干預。校長本身要有理念,要能夠領導學校,不是奉上級的旨意辦學,不是只會用考試成績分類學生和要求老師。因此,我們需要更多有理念、有擔當的校長。

但報導中倒數第二段記者寫到「大數據分析」,讓我很納悶... 我想,哪來的「大」數據?清華大學部每年新生約1500人,15年來也不過22500筆資料,能大到哪裡去呢?假設每份資料存放的是歷年修課成績,就算每位學生大學修100門課(!),代碼加上分數,算8個byte好了,那每筆記錄不到1KB,所以總共只有22.5MB的資料。有人能告訴我,哪裡算錯了嗎?

單純為了這篇報導所述的結果,分析這樣大小的資料,用一般統計的方法就可以做,我想是用不到大數據分析的技術。不過,我倒是希望這些資料能夠成為open data,給大家來分析和驗證,甚至做進一步研究資料之間的關連性,但如何去名化,確保學生隱私,則有其挑戰性,要先想清楚。

補充:

我文末只是想趁此釐清大數據的觀念,無意說清大的不是,因為這話可能是記者寫的,或者指的是資料放在提供做大數據分析的平台。

1. 大數據有其不大嚴謹、各家自行的定義(請參考https://zh.wikipedia.org/wiki/大數據),但總不能差太多。就像雲端運算,總不能說只要把資料放在連網的伺服器上就是最新的雲端運算,那麼就會像李家同教授『原來,我早就在「雲端」』(http://erdos.csie.ncnu.edu.tw/~rctlee/article/981107.htm)這篇文章中,說他『查了一 下雜誌,發現所謂雲端科技,無非就是將所有的資料都送到網路去處理』。得到聽起來怪怪的結論。

2. 現在大部份大數據產業中的公司,都繼續使用3V:量(Volume,資料大小)、速(Velocity,資料輸入輸出的速度)與多變(Variety,多樣性)來描述大數據。(請參考https://zh.wikipedia.org/wiki/大數據)

所以並不是只要把數據不經過取樣全部拿來分析,就算大數據分析。有何難哉?少量的數據,以三十年前的技術就可以做了,何必扯到大數據?我去過中研院統計所演講過,我知道統計學的專家未必願意說自己在做大數據分析。

3. 通常我們談的大數據,是「原始資料」的大小,各位如果想知道數據之間的關連性,那麼在分析N筆原始資料的過程中,有可能產生N平方,甚至N的多次方的中間資料,但即便這些資料再多,通常也不算是大數據。

資料探勘(data mining)常常在找資料之間的關聯性,但data mining的專家未必願意說自己在做大數據分析。DNA排序也是一個例子。搜集到的原始資料不多,但運算過程中產生的資料量很大,我很少聽到做DNA排序的人說他們做大數據分析。

為了觀察資料之間的相關性,可以試著把關係轉成圖形,再轉成大矩陣運算的做法。但這樣的作法,早在幾十年前就有,算的時間長一些,所以需要超級電腦,如果這些都算,那全天下所有做High-Performance Computing的地方都可說是在做大數據分析,而我可說我在20年前就是大數據分析的專家了。

4. 資料如果開放,可集眾人之力來分析,應該發揮更多用處,所以我才提到open data(但open data未必是big data,這也是常見的迷思)。我個人更有興趣的是去觀察資料之間的相關性,分析學生的修課行為,給新來的修課的建議等等。這也是我一再說,資訊科技會改變很多事情,尤其是教育。

5. 我發現似乎有些朋友把big data analytic和deep data analytic混為一談。實際上,「大」和「深」是不同的面相,在學理上應該要區分清楚。例如我們做deep learning,不見得要用很多的數據才能做,如果模型深度夠高,也可以做得好,但是如果有大數據的話,應該會更好,至於好多少就要看狀況了。這時候因為在有限的運算能力和等待時間的限制下,研究者不可能又要深又要大,必須有所取捨,因此應該就大和深這兩個面相分別研究和綜合去探討解決方案的優劣。

6. 因為大數據取得不易,而且所需的設備成本高,所以大多數人做的比較像是deep data analytic,但是套上了big data analytic的名字,看起來比較時髦。實際上,只要能把問題解決,是不是big data,名稱是什麼,並不重要,只是我們做學術的,稍微講究一點,希望把概念和名相講清楚。

(註)http://udn.com/news/story/6925/1232877

沒有留言:

張貼留言