大數據分析入門

第四次讀書會心得 2017-10-31

時間: 2017-10-31 18:00-20:00

地點: 清大工程一館807

導讀人: 桑慧敏 教授

成員: 蘇意筑、許峻銘、黃品皓、陳泰榮、吳俊慶、郭宗淵、紀俊宇、巫昇餘

記錄人: 蘇意筑、紀俊宇、巫昇餘

一、討論紀錄:

1.    同學報告與老師回饋 (同學報告之投影片請參見附錄)

3.1 Retinex (報告人:郭宗淵)

老師回饋說Retinex與經學過的獨立成分分析 (ICA) 的精神。至於兩者的相同與不同之處為何,仍然有待深入了解。老師讚許宗淵把Retinex講得很清楚,若能以更精簡的頁數呈現會更好。

3.2 大數據相關實務應用 (報告人:紀俊宇) (因涉及公司機密所以投影片不公開)

最後一次讀書會,主要分享自己 (紀俊宇) 現在在職場上所遇到的各類問題,很有趣,每個問題都有著自己的屬性,我們可以嘗試著從各方面去挖掘出金礦。報告的內容,可以讓大家發現Why數據科學家是21世紀「最性感的職業」,猶如一件衣服的誕生:

「我們有著一堆布料(原始資料),我們開始規劃設計一件符合身材曲線的衣服(要求的目的),我們決定需要用什麼布料去做各部件(資料的蒐集),我們去掉多餘或不好的部分(資料的清洗),我們裁剪布料 (資料的取捨),我們用各種工具去製作這件衣服(資料分析方法),最後縫製出一件高品質且能襯托出個人品味的衣服(所求的目的)。」

為什麼要提這麼多次的我們,因為這些布料最終的成品是成為路邊攤呢或者是讓人眼睛一亮的藝術品,取決在「我們如何去使用它們。」 

3.3 封裝製程 (報告人:巫昇餘) (因涉及公司機密所以投影片不公開)

最後一次讀書會,一開始我 (巫昇餘) 先講解半導體的製程主要可分成IC設計、晶圓製程、晶圓測試、晶圓封裝/測試,我主要分享了半導體封裝製程的介紹,讓學弟妹們了解實際工廠是如何運作,如何產生出小小一塊塊的IC晶片,且告訴大家IC晶片運用在什麼類型的產品上,我用簡單淺顯易懂的方式讓大家皆為了解,比喻一片PIZZA是如何製造出來,當然這生產過程中會面臨許多大大小小的問題,在報告中就略為概述,這需在實際現場中才會有所了解,此次的報告,也當作事研究生們職場前暖身的體會;期許學弟們未來在職場皆為一帆風順。

二、同學會後撰寫的心得感想:

1.    (蘇意筑)

很快地又到了第四次的讀書會。一開始由宗淵報告CNNRetinex的介紹。宗淵利用了衣服的顏色、蛋白的顏色介紹了色彩恆常性。在說明Retinex其實就是色彩恆常性的原理,將顏色經過轉換後重新呈現色彩。老師又聯想到曾經學過的獨立成分分析 (ICA),與Retinex的精神似乎很相近。至於兩者的相同與不同之處為何,仍然有待我們深入了解。這次的讀書會很歡喜也有兩位在職專班的學長準備了投影片來報告。紀學長報告的是他在公司內做過與大數據分析相關的內容。紀學長很用心地把所有的內容都帶來,很可惜由於時間的關係沒能聽到全部的內容。紀學長在最後提到他與高層人員的對話,也呈現了其謙遜與感恩之心境。巫學長則是介紹了其廠內的封裝製程,使我們不用走進工廠也能知曉工廠的作業流程。從這次的讀書會我又學到不少的新知,也謝謝老師和我們分享她的想法,使我們能夠有更深入思考的機會與可能。謝謝老師!

2.    (許峻銘)

這是本學期第四次的讀書會,這次的讀書會有宗淵同學分享利用大數據進行影像辨識的基礎慨念,還有兩位工工所在職碩班的學長來分享平時工作上的製程介紹和數據分析帶來的價值。

近年來熱門的AI人工智慧應用中,影像識辨是一項重要的分支。透過大量資料的訓練,可以讓電腦學習辨識不同的物體,進而讓電腦能夠自行判斷物件的屬性。這項應用可以到自動駕駛車上(行車電腦自行判斷週遭的物件屬性),也可以應用到醫療領域上(讓電腦取代醫生來辨別醫學影像,使得醫生能專注在診斷和分析的流程中)。今日透過宗淵同學的介紹,我學習到了一個名為retinex強化影像的方法。此方法可以讓我們過排除光線對物件本身的干擾,還原出物件與環境間的原始資訊。

另外兩位在職碩班的學長,則是分享了他們實際在業界的工作經驗和業界的資料,讓我們接觸到了教科書以外更真實的數據和利用數據來解決問題情況。能夠在學校中就聽到、看到這麼多業界機密的數據和照片,覺得真的機會難得。感謝他們無私的分享。

3.    (黃品皓)

今天是最後一次讀書會,聽了宗淵的精采報告之後,我對於Retinex (影像增強演算法) 有了初步的認識,色彩恆常性的涵義其實就是說,物體的顏色是由物體本身對於各個不同波長光波的反射率所決定,而跟光源的光波長比例無關。紀俊宇學長的報告讓我看到,在職場上應該要有的態度,即使老闆沒給你問題,也要積極的去找出問題,而且我對於他所提到的SASJUMP這個工具也很感興趣,待會就來查查看!最後巫昇餘學長的報告讓我初步了解到工廠封測的運作流程。

4.    (陳泰榮)

感謝昇餘學長、俊宇學長和宗淵同學這次辛苦的報告。昇餘學長總結式的帶領我們瀏覽封裝製程的可能錯誤原因和各項流程的實際狀況,讓我們對於半導體封裝廠的運作和問題點都更加的了解,而俊宇學長則告訴我們現實上他是如何去尋找問題並解決的,從資料攫取到分析問題尋找解決方案,這使我們看見工程師是要如何主動挖掘情況,不會有人帶領,這是我們應該要多加學習的態度,只要我們能從中學習到十分之一,那便能大有長進。宗淵同學則使我們得以更加了解資料前處理retinex是什麼及怎麼運作,他引用藍黑衣服還是白金衣服的例子,告訴我們色彩恆常性是什麼,在此之後才介紹retinex是以此為基礎去進行延伸處理,巧妙而簡單的介紹使我們能輕易的理解,同且將其中複雜的卷積運算、傅立葉轉換都省略不使我們受限於複雜的數學函式,再加上老師深刻而點睛的問答,實在使我們受用許多。

5.    (吳俊慶)

今天一開始宗淵同學先介紹CNN裡面的Retinex,首先他先舉了一個衣服的例子然後問我們說這個衣服是甚麼顏色,答案有黑藍跟白銀,接下來他告訴我們為什麼會有這兩個差別,原因是大腦有沒有白平衡,然後再切入到CNN應用於青光眼分析,資料做Retinex後,判斷特徵會更加明顯,然後老師問他們在做CNN時一張照片的判斷時間大概是多久,宗淵他們說平均一張大約是十分鐘,但無法跑超過三張圖,原因大概是判別區域太廣,老師提出來應該將醫生的判別區域取出來,減少判斷時間,並且嘗試用迴歸分析做出與簡單類神經網路的練習,後面緊接著是俊宇學長上台報告他在公司解決的案例,學長給我們最好的示範是我們平時在做的事情大部分都是手的工作,但是俊宇學長能夠發現產線上的問題,並且以有邏輯又正確的方法解決,並且還不忘感謝同仁,這是我們該學習的精神,昇餘學長替我們介紹日月光公司在做的事情,將公司內部產線,介紹非常清楚,我今天最大的體悟是我其實感到開心,能從俊宇學長的案例中看見何為思考並解決問題,就像老師說的發現問題,就已經將問題解決一半了,在老師的指導下我們一定會更加進步。 

6.    (郭宗淵)

終於來到了最後一次的讀書會了,沒想到這次讀書會報告的人,在LAB之中只剩下我,讓我真是非常緊張,而受過老師那麼多的薰陶,讓我在準備投影片及報告時,不禁開始想,要怎樣才能像老師一樣講的簡單明瞭,以及要如何才能像老師一樣吸引全場的關注。於是我便照著老師的基本要求,投影片做個5頁左右就好,要怎麼做的少又講的好,也真的是很困難的點。所幸這次的主題滿好發揮的,而學習老師演講的方式也讓我的架構比較有邏輯性,也感謝老師在我報告中給我的指導,告訴我在什麼地方應該放慢語調。這次兩位專班的學長也上台報告,也令我收穫良多。平常老師告訴我們要先訓練好「手」的能力在訓練「腦」來解決問題,而俊宇學長就充分地為我們展現何謂手腦都訓練的結果,他不但SASjmp程式用的很好,也能想出方法解決問題。而也感謝昇餘學長詳細為我們介紹製程。總之這次讀書會是個完美的ending,也謝謝大家一直以來的參與,更謝謝老師無私的分享!

7.    (紀俊宇)

今天參加最後一次大數據讀書會,聽到成員們發表如何用類神經網路方法來幫助醫生提升判定青光眼的準確率,讓我覺得相當有趣。青光眼的判讀對於每個醫生來說某種程度上存在著曖昧不清的模糊界線,影響因素可能為醫生的職業經驗長短及所判斷用的方法,為的避免這類因素的影響造成判斷的不一或不準,桑慧敏教授及其學生試圖運用類神經網路來解決此問題。

今天的亮點就是在職專班的數據分析及製程介紹,我自己也是其中之一,從另名同學的製程介紹讓我發現,雖然我們所在不同的產業,但製程卻有極高的相似度,而他們製程各站別會產生的Defects情況也跟我的產業很相似。他所在的公司發展已久,系統伺服器中有著完整的製程raw data,但卻沒有人會運用這些資料去檢視整廠的各站情況及需要或可以改善的部分,這點實在非常可惜。尤其他們有這麼多廠,而且每廠做的又幾乎是相同的事,如果可以解決或改善其中一廠的問題,不就可以應用或去檢視到其他各廠了嗎? 這帶來的總利益將會非常可觀,但卻需要有人教他們如何去做。


蘇意筑 / 2017-11-04

第三次讀書會心得 2017-10-24

時間: 2017-10-24 18:00-20:30

地點: 清大工程一館807

導讀人: 桑慧敏 教授 成員: 蘇意筑、許峻銘、黃品皓、陳泰榮、吳俊慶、郭宗淵、紀俊宇、巫昇餘

記錄人: 蘇意筑

一、討論紀錄:

1.    觀看實驗設計 (Design of experiment) 之影片

老師提供了幾分鐘講解實驗設計中「穩健設計」的英文影片。穩健設計是田口主要的貢獻。穩健設計與我們之前學的實驗設計差別在於,其考量了雜音因子 (noise factors) 的效用。穩健設計可以提供我們哪個主效用受雜音因子的影響小或大,使我們了解主效用與雜音因子間的關係。 

 

2.    同學報告與老師回饋 (同學報告之投影片請參見附錄)

3.1 Neural Network and Big Data (報告人:蘇意筑)

(1) 對於整個報告主題,老師建議應該要問的問題是:機器學習和非機器學習的差別為何? (2) 對於「What is the difference among Big Data, Neural Network, Machine Learning, Deep Learning, and Artificial Intelligence?」,老師建議一次只比較兩個東西就好,不同種類的東西也不要放在一起比較。  

 

3.2 Neural Network (NN) (報告人:黃品皓)

(1) 老師讚許同學在一開始提出了一個好問題「Why do we use Neural Network?」,但同學對於這個問題沒有提出較好的答案。 (2) 同學報告中特別解釋在上次讀書會有提到之「Overfitting」,並舉例說明。而「Overfitting」在類神經網路裡面以「Loss Function」表示。(3) 老師說明,類神經網路就是很多層的迴歸模型,因為太多層了,已經無法用數學式寫出來,也無法從output回推得到input,所以才會稱類神經網路為所謂的「黑箱」。若是類神經網路只有一層,其實應與我們以前所學的迴歸模式預測資料方式相同,同學可當作練習並驗證之。(4)「類神經網路的輸入值介於0~1之間」的原因為何,尚待解釋。  

 

3.3 Convolutional Neural Network (CNN) (報告人:陳泰榮)

老師說明其實所謂的CNNC,就是智慧型資料轉換的意思。與NN的差別就在於CNN 先對資料做了轉換,再套用NN的架構。老師一語點出CNNNN的差異之處。 

 

二、同學會後撰寫的心得感想:

1.    (蘇意筑)

對於我的報告,老師的回饋是『大數據分析有2種方法,一種是統計方法,一種是機器學習。統計方法就是以機率模式或模型,將世界作為母群體來看待。我應該有更好的問題要問,例如:「機器學習與非機器學習的差別為何」。另外,每次比較2種東西就好,且要同類同層的東西比較才會有意義。』

   老師在上一次讀書會就提到過大數據分析有統計方法與機器學習,只是當時我沒有完整記下這句話,所以在做投影片的時候仍然對大數據和方法間的認知不夠清楚。雖然沒有報告得很好,但至少我釐清了我納悶很久的問題「大數據和類神經網路的關係」,大數據就是我們要分析的資料,類神經網路是分析方法的一種,主要應用於將資料分類。而我接下來要繼續理解機器學習與非機器學習的差別為何。

 

2.    (許峻銘)

這是本學期第三次的讀書會,本次讀書會桑老師帶領我們欣賞一段有關實驗設計(Design of experiment)的影片,學習實驗設計的內涵。接著由讀書會成員來報告他們研究近年很熱門的類神經網路。

類神經網路可用來建構較為複雜(例如非線性)的模型,主要的精神是透過選擇不同的層數和神經元數量,反覆試誤找出一個較佳的配適組合。其中在圖像辨識領域又以卷積類神經網路(Convolution Neural Network)效能較佳。而所謂卷積類神經網路的差異則是在於原始資料需先經過卷積這道手續,再將經處理後的資料放入類神經網路中進行後續的建模。

類神經網路的慨念雖然看起來並不複雜,但要如何應用到實務上,我想我會找時間先從小型簡易的範例開始練習,讓自己更進一步瞭解項工具。感謝這次讀書會同學的分享,讓我對一個熱門但陌生的工具有了多一些的認識。 

 

3.    (黃品皓)

今天的讀書會有4項收穫:

1.今天的開場我們在討論之前去參加大數據比賽的心得,其中有兩組的題目是比較不一樣的,但光從比賽現場的簡報來看只能說是有趣,具體如何應用不知道,對於他們的論文我其實挺好奇的。

2.之後老師帶著我們看了一部在解說實驗設計的影片,一方面也訓練我們的英文聽力。

 3.今天我報告了NN(類神經網路),經由老師的指導後發現了還有很多能夠改進的地方!

4.其實數據處理的邏輯都是一樣的,其中共同的核心價值之一就是對資料做「智慧型轉換」 

 

4.    (陳泰榮)

這次讀書會報告經過老師的講評我又知道如何去精進自己的簡報能力,同且聽聞老師的勸言,我也明白到該要如何去爭取表現的機會,畢竟在這個社會上,你要如何讓人看見你,最快的方法就是自己站起來,當大家都在坐的時候你站起來就特別明顯,而這也是我們將來出社會時最重要的一點,再來老師還提到簡報切中要點的厲害之處,若是我們想要進行教學就需要去除干擾主軸的支線,使自己所要表達的東西直接傳遞給聽眾們,實在很感謝老師。

再來學長們對於我們的諫言,也讓我回味許久,不努力或許不會怎樣,但是努力就有可能可以怎樣。能者多勞,勞者多能,有作雖累,但是這些都會成為我們的血脈,這些努力構建了我們的知識,當有人檢驗時,有真正做事的人,才會真正通過,反之一直打混摸魚的,遲早會出事,這是我要像學長學習並致謝的事。

最後也要感謝一下意筑,讀書會的雜事和主持都要麻煩於他,多虧了他我們省下許多麻煩。  

 

5.    (吳俊慶)

今天讀書會開始我們先看一題全英文的實驗設計題目,看完後老師替我們解答,之後老師便開始分享最近一次出去比賽的小組分享出去比賽的心得,在分享的過程當中我學到很重要的一點是,要懂得替自己爭取機會。接下來讀書會報告就正式開始,今天第一位報告者是意筑,要介紹的是大數據與類神經網路的關係,主要的重點是類神經網路可使用大數據來提升預測與判斷的準確性。再來是由品皓報告類神經網路,第一問是為什麼要用類神經網路?為什麼不用其他方法?他以房地產來舉例如果你要幫助不動產經理人, 對不同房屋進行估價。考慮到價格與生活 空間大小、儲藏室大小、屋齡、等等皆有關, 請問要如何推論適當的房屋價格?然後比較SVM、線性方程式和類神經網路,當中我們討論到類神經網路和迴歸的關係,老師提出,類神經網路可能就是一個很複雜的迴歸,這邊老師出了一個功課,要我們用類神經網路分析一個簡單的題目,再利用迴歸式去驗證它。  

 

6.    (郭宗淵)

這次的讀書會也是受益良多,老師一開始語重心長的教導我們該如何把握機會,令我發現我作為一個學習者的態度是多麼的不積極,也感謝老師將我們當作自己的孩子般教導。接下來我們看了一個有關實驗設計(Design of Experiment ,DOE)的英文影片,雖然只有影片的時間不長,但是我實在是聽不太懂影片的內容,所幸老師後來有為我們講解,而老師只花了2~3分鐘便將影片整個架構解釋得很清楚,真的是令我佩服的五體投地。最後到了這次的報告,品皓的報告十分令人驚艷,投影片的架構十分有邏輯性,而他所提出的問題及講解也都淺顯易懂且有架構,我想我們都應該向他好好學習。也因為我這次的投影片做的不是很好,要講的內容順序顛倒,架構不對,因此讓聽眾對於我們要講解的內容有點混淆,我想這就是我需要好好改善的地方,也希望我在下次的讀書會能夠更進步。  

 

7.    (紀俊宇)

今天參加大數據讀書會,過程中得知組員及教授所組的團隊「二十不惑」參加106暑假【低壓智慧電表大數據分析與設計競賽】-研析組,並贏得第二名,恭喜。猶記在中秋節的當天,第一次參加讀書會時聽到組員參加此競賽,在讀書會的過程中開始介紹取得了什麼資料及如何分析這些用電戶的行為模式,經過一層層及解構的方式(小波轉換),最終將原本看起來雜亂無章的Big Data理出了一個條理分明的用電戶行為類型,得到此結果可以應用到預測未來的用電量,並藉此預估是否有用電危機,在反核的聲浪中更加重要,切中時事並做到學以致用。

另一個讓人記得的事是教授播放了一部英文短片,影片內容是實驗設計,探討如何對影響因素做適當的實驗安排,最後由小組成員發表影片心得,透過:分享,討論,影片,朗誦,做到面面俱的多方面的學習。

 

 


蘇意筑 / 2017-11-01

第二次讀書會心得 2017-10-11

時間: 2017-10-11 16:30-18:30

地點: 清大工程一館807

導讀人: 桑慧敏 教授

成員: 蘇意筑、許峻銘、黃品皓、陳泰榮、吳俊慶、郭宗淵、紀俊宇、巫昇餘

記錄人: 蘇意筑

一、討論紀錄:

老師這次提供了一本有關大數據的書籍《BIG DATA, DATA MINING, AND MACHINE LEARNING》,作者是Jared Dean。這本書前十章為大數據分析相關方法論,第十一至十七章是案例分享。我們預計從這本書的第十一章開始讀起,這次讀書會大家一起讀、一起討論第十一章。下次讀書會開始,由一個人負責報告第十二章的重點,其他人則先預習第十二章,並在讀書會一起討論第十二章的內容。下次讀書會除了討論書的內容,也會由同學報告大數據相關的方法論: 「類神經網路 (NN)」與「卷積類神經網路 (CNN)」。

這次讀書會的進行方式是由每個人輪流唸書本第十一章的英文段落,並由老師帶領討論。討論時老師問我們書籍裡的哪句話你覺得有道理,或你覺得沒道理,每個人提出一句來進行討論。藉著討論,老師幫助我們了解第十一章的重點內容與此本書的可以再更言簡意賅的編寫方式。詳細討論內容如下:

1.  The final phase in this step is the assessment of all the candidate models to pick a best model…averaged squared error(ASE), misclassification rate, and profit<- 列舉出常見的模型績效指標

2.  Overfitting the model will lead to poor model generalization.<- overfitting的意思就如要去買衣服, 兩袖子要符合左手長度與右手長度,幾乎難以找到這種衣服,難作又沒有必要。

3.  It is well known that the more time you give to building your model, the better the model will be.<- 老師不同意這句話, 因為花費愈多時間建模型不代表模型建得愈好,花較少時間建的模型也不見得不好。

4.  With this additional time, the modelers at the bank were able to try more statistical and machine learning techniques to search for a more effective model predict who would respond to the campaign.<-此句話顯示此作者同意建模方法分成統計方法與非統計方法。

最後,很歡喜有兩位在職專班的學長加入我們的讀書會,使我們的讀書會更加熱鬧!

 

二、同學會後撰寫的心得感想:

1.          (蘇意筑)

今天的讀書會由老師來主持,與我上次主持不一樣之處在於老師建議要報告的話,一定要準備投影片。老師認為讀書會要讓大家能夠學到東西才是最終的目的,老師這樣的想法又啟發了我對讀書會的認識。這次讀書會的進行方式是由大家輪流唸《BIG DATA, DATA MINING, AND MACHINE LEARNING》這本書第十一章的英文段落。每個人都認真地唸每個字,讓我也享受著唸英文的當下,也驅趕了近日勞累的心境。要能邊唸邊理解句子意涵,則是我的尚待克服之處。不過這本書不夠言簡意賅,對於大數據分析的實作方法提供的資訊對我們的助益也不大,未來希望可以找到內容更豐富與完善的與大數據分析有關之書。

 

2.          (許峻銘)

這是本學期第二次的讀書會,這次由桑慧敏老師來帶各位同學一起讀大數據分析的案例討論。大家一起閱讀同一篇文章,然後分享每個人的心得與想法,可以學習到其他的人是怎麼思考的,覺得很棒。桑老師在開始的時候分享她產學合作的經驗,也讓我感受到廣結善緣的重要。只要我們能夠認真做事、用心待人,相信機會總是會在意想不到的時候出現在我們眼前。

3.          (黃品皓)

今天是雙十連假之後的第一天,認識了兩位新學長,一個是在台灣半導體照明工作,另一個則是在日月光的桃園廠工作。老師帶領著大家閱讀一本有關大數據分析的英文書,據說這本書是以前的學長們參加台積電舉辦的大數據比賽後,台積電送給老師的;我們輪流一人念一段,在抓取各個段落重點的同時也一起練習了英文呢!

4.          (陳泰榮)

這次很幸運地認識了兩位在業界工作的學長,兩位學長一位任職於LED封裝廠另一位任職於日月光中壢封裝廠,兩位學長簡單的說明著曾經遇過的狀況以及為何來念碩士班的原因,同且今天老師帶領我們一同以英文朗讀台積電送老師的大數據書籍,看台積電的相關案例,讓我們複習英文閱讀,並訓練台風,可惜的是本書有些不足,但該有細節之處並未多加著墨反倒一筆帶過,整體注重於流水式講述,使得我沒法了解它具體是以何種方法改善,這實在讓我稍顯難過。在朗讀過程中,也讓我認識到我的不足,無法在朗讀時理解文字,而是被文字帶著走,必須要停下口舌才能反思文字的意涵,但讓我佩服的是老師的理解力,老師能在文章中理解到核心意涵,而不會因為過多的文字造成理上的困擾,這也是我要學習的。

5.          (吳俊慶)

今天是我們第二次開讀書會,跟上次最不同的地方是這次的導讀者是桑惠敏教授,一開始讓兩位在職專班的學長自我介紹,今天也決定我們這學期讀書會要讀《BIG DATA, DATA MINING, AND MACHINE LEARNING》,我們這次進行的方式是由本書裡企業運用大數據方法改善公司成功的案例,今天是主要讀的部分是CHAPTER.11:Case Study of a Large U.S.-Based Financial Services Company,我們由老師開始一個人唸一段,唸完後我們一一分享讀完的心得,當中有一句話,It is well known that the more time your give to building your model, the better the model will be.我們覺得這個是不對的,花越多時間並不代表會得到更好的model,另外一段是the modelers at the bank were able to try more statistical and machine learning techniques to search for a more effective model to predict who would respond to the campaign.這個看法和老師的理念不謀而合,雖然這本書的內容介紹成功使用大數據的案例,但書裡沒有講的很明確,今天我們有練習英文和大數據的知識,下次我們會有詳細介紹大數據使用的方法和繼續閱讀實際案例,收穫良多,期待下一次的讀書會。

6.          (郭宗淵)

這次的讀書會比上次有多了一個學長,而這次兩位專班的學長都詳細的自我介紹,讓大家更認識他們,真是一件非常福氣的事情,也感謝兩位學長分享他們在產業界經歷。而今天的讀書會跟上次相比就有方向性,因為這次有老師帶領我們,讓我們可以比較有目的性的進行讀書會。而這次的讀書會特別的是老師讓我們讀了英文文獻,從中我發現我的英文真的是跟不太上,而且因為平常沒有講英文的習慣,所以雖然念了內容,卻沒讀進腦子,因此在最後老師要我們發表短心得的時候我也是腦子一片空白。幸好下次讀書會之前我們有機會先看過內容,我想這樣下次我較可以跟同學有建設性的討論,也有更好的收穫!

7.          (紀俊宇)

此次讀書會主題是「Case study of a Large U.S.-Based Financial Services Company,教授先讓每位成員用英文念過,雖然有些發音的地方輕重音不是很對,不過在教授與同學的協助下,大家還是完整的把內容輪流唸完了,說明大家的英文能力其實都不錯。

而後,成員們開始進入並討論這次主題的重點,並發表書上內容寫得好與不好的地方。舉例來說:好的地方為,作者能運用統計方法建模找出重要的幾個因素,使其可以大幅度改善他所面對的問題。不好的地方為內容冗長交代不清。

這樣的讀書會方式,可以讓我們去欣賞並學習作者的寫作優點,並同時去思考有哪些地方是作者做得不夠好,而我們“能夠發現並做得比他更好的地方“。此不僅可以增進我們看一個人或一件事情的深度,並且也幫助我們跳脫慣性的思維模式 。

 

8.          (巫昇餘)

非常慶幸教授能每學期舉辦了一係列的讀書會相關活動,這次的讀書會的主題是談論「Case study of a Large U.S.- Based Finance Service Company ,一開始教授先讓大家輪流念英文內容,加深大家的印象,雖然大家發音皆有誤,但在同學和教授的協助之下,還是順利念書本章內容,大家英文皆還不錯,希望能持續保持下去;會後也再次復習本章節的內容以及預讀下次讀書會的內容。在讀書會中教授讓我們彼此互相分享資訊、心得與發現,過程中很快樂,更開闊我的視野與想法,同一章的內容因為不同的人而有了不一樣的詮釋與解讀,那是因為每個人思想獨特,因為如此才能成就這個讀書會,很珍惜每一次的讀書會活動。


蘇意筑 / 2017-10-23

第一次讀書會心得 2017-10-4

時間: 2017-10-04 16:30-18:30

地點: 清大工程一館807

導讀人: 蘇意筑

成員: 蘇意筑、許峻銘、黃品皓、陳泰榮、吳俊慶、郭宗淵、張劭新、纪俊宇

記錄人: 蘇意筑、黃品皓、陳泰榮、纪俊宇

一、討論紀錄:

1.  開場(主持人: 蘇意筑)

   各位同學,今天是第一次的讀書會,很謝謝大家願意挪出時間參加讀書會。讀書會這天是中秋節,我們無法與家人享受烤肉、共賞月圓,但我們能飲文作歌。我想向大家獻唱一首「王菲-但願人長久」,做為今天讀書會開場的序曲。

  「明月幾時有,把酒問青天。不知天上宮闕,今夕是何年。我欲乘風歸去,唯恐瓊樓玉宇。高處不勝寒,起舞弄清影,何似在人間。轉朱閣,低綺戶,照無眠。不應有恨,何事長向,別時圓。人有悲歡離合,月有陰晴圓缺。此事古難全,但願人長久,千里共嬋娟。」

   感性的時間結束,接著我們來介紹一下讀書會的成立動機、預期成效,與相關內容。

   科技愈來愈發達,儲存裝置的空間愈做愈大,我們能夠儲存與蒐集愈來愈多的資料,建立「大數據」的資料庫。但要如何用這些資料—哪些資料對我們要解的問題有用,哪些資料提供什麼資訊,卻是等待有待發掘與提出一套分析邏輯,就是所謂的「大數據分析」。我們成立讀書會的動機,就是希望有一個專門的聚會能分享有關大數據資料分析之議題。更利用這段時間,提供練習英文的機會。(接續著介紹讀書會的進行方式、預期成效與本次分享內容,請見第一章計畫簡介)

 

2.  同學報告內容摘要 

(1.1)     許峻銘同學報告-小波轉換

運用在【低壓智慧電表大數據分析與設計競賽】,主要在探討如何使用小波轉換判斷用戶用電的行為模式。小波轉換的概念,簡單來說,可以透過小波矩陣 (濾波器的概念) 將原始數據分離出低頻與高頻數列,這有助於我們將複雜的資料,依據分解出的低頻與高頻兩者數列特徵做分群。也可以將分解後的低頻與高頻數列再合成回去。

小波轉換類似於傅立葉轉換,兩者的基本精神都是提供我們從不同的角度來觀察原始資料。一個小波可以透過母小波(mother wavelet) 平移及縮放後創造出來,小波轉換即是藉由母小波所變化而來的各種小波建構出觀察資料的座標系統。母小波經由平移與縮放(或稱尺度變化) 之後可以創造出其他的小波。透過給定各個小波的位置及尺度變化,再將其作線性組合即可還原出原始資料。 

(1.2)     陳泰榮、郭宗淵同學報告-卷積類神經網路

卷積神經網絡是近年興起的一種人工神經網絡結構,由卷積(面的概念)和神經網絡二詞所組成,它的優點為神經網絡不在是對每個像素「點」單獨做處理,而是對每小塊像素「區域」做處理,從「點」到「面」跨維度的處理方式,增加了照片輸入訊息的連續性,進而提高判斷結果的正確性。

這次報告CNN(Convolution Neural Network)是希望藉由這次的講述使大家對於深度學習有一些基本的理解,並以此明白大數據資料用於圖像分析上能有什麼效果。深度學習(Deep Learning)是機器學習(Machine learning)的一個分支,而CNN是歷往深度學習的發展主力,深度學習在以往機器學習一直無法突破的應用上,都獲得相當優異的成果,比如在MNIST這個手寫數字的資料集上得到空前的佳績,於測試資料中只有0.23%的錯誤率,比人類平均的錯誤率還要低。

 

(1.3)   黃品皓同學報告-人工類神經網路

Electric Load Forecasting Using An Artificial Neural Network(IEEE Transactions on Power Systems, Vo1.6, No. 2, May 1991)

針對用電資料的預測,大部分的研究方法論可區分為兩類:

(1)時間序列分析:例如ARMA,利用用電資料的自我相關特性,以過去的用電資料預測未來的用電資料;缺點是當一些因素,例如天氣(氣溫、風速、濕度…)有劇烈變化時,光靠過去的用電資料自我相關無法準確預測。

(2)找出影響因子與用電量的關係:典型的作法例如用迴歸分析擬出氣溫、風速、濕度、地區等變數對於用電量的影響。

本篇所報告的ANN(人工類神經網路)則是想結合兩者長處,利用過往的用電資料以及溫度,訓練出能夠準確預測用電量之模型;雖然論文結論中預測之誤差不大,但其效用尚須實作驗證。

 

二、同學會後撰寫的心得感想:

1.  (蘇意筑)

睽違已久的讀書會終於在今天正式舉辦。要謝謝大家在繁忙之中,在中秋佳節抽空前來參與。非常難得的是還有在職專班的學長 (纪俊宇) 與專題生 (張劭新) 也特別前來捧場。這次的讀書會,大家還不太習慣用英文報告,仍需要許多的中文語句來輔助。但今天的讀書會仍然激勵了我們做研究的熱情,是一個好的開始。其中令我感受最深的是今天是由我來主持讀書會,我試著扮演老師曾經擔任的導讀人位置。我構思了幾段話作為開場,但是對於回饋同學的報告內容仍然需要加強。也很謝謝同學分享自己在大數據方面對於方法與文獻的認識,使我又學到一些新的概念。

2.  (許峻銘)

這是本學期第一次的讀書會,主題是大數據分析。由於我手邊正好在進行一個智慧電錶大數據競賽的東西,因此就拿我最近正在實作的內容(小波轉換)來與大家分享心得。

大數據分析是近年來十分熱門的話題,而R正是目前相當熱門的大數據分析工具之一。目前我所使用的工具就是R。期望未來的讀書會可以從其他同學身上聽到更多新的東西,彼此互相激盪出火花,為我們的研究生活增添樂趣。

感謝總召意筑的用心,還為了第一次的讀書會獻聲給各位,覺得意筑的膽量越來越大了,很棒。

3.  (黃品皓)

今天是中秋節,在讀書會開始時蘇博士還唱了一首但願人長久作為開場,非常有趣。聽完大家的分享之後其實可以總結出,針對大數據分析的各種工具(方法論),其實都有很相近的邏輯:首先,大數據就是很大量的資料,然而對於數據分析而言,真的有用的資料量實際上不會這麼多,以今天讀書會的內容為例,不管是小波轉換還是類神經網路,都有提取特徵的動作,提取得愈好,其分群與預測效果也愈好。很感謝今天大家的分享讓我又學到不少東西。

 

4.  (陳泰榮)

對我而言這是我第一次參加讀書會這種活動,所以對於各項流程都覺得十分新奇,其他人對於這次讀書會也都有準備不少內容,因此也覺得有學習到不少東西,再加上蘇意築同學在開場時的熱情開場曲,也使這場活動更為有趣。

這種強制學習的活動我挺喜歡的,因我是比較被動的人,如果沒有特別的動機或壓力不會特別去深究一項事物但是在讀書會的壓力下會去把先前模糊的事物弄懂,在許多小細節上也會特別注意,以求不會讓人困惑,但這次讀書會我還是覺得自己準備有些不夠充足,在許多部份我都覺得應該能講得更清晰也更完整,但在演講當下卻無法明確地講出內容同且漏掉許多部份讓我有些難過,下次讀書會時會依此進行改善,使下次的內容能表達得更為完善且簡易明瞭,不會再發生同樣使人疑惑重重的狀況。同且從他人熱烈的詢問和討論中我也感覺對於許多不熟悉的觀念也都被清楚的糾正,許多在先前想當然爾的認知當面臨其他人提問時的思考也讓我明白我需要改進什麼,實在是收穫不少。

這次報告的有三組其中最讓我感興趣的是學長的報告,因我從前就聽過不少轉換的名諱但是都不知道詳細的內容,這次聽完學長清楚明白的報告後我才了解到轉換有何作用,小波轉換又是什麼,不過其中也有需多我仍然是迷惑的部分,比如:其在分群上的效用要如何評估、分群數量要用什麼做衡量和我該如何辨別與其他轉換的優劣之處。不過總體而言還是能讓我能清晰明白為什麼要使用該轉換且他做到什麼。

最後黃品皓同學的報告主題對我有些相似但是他偏重目的與對比,反倒不深究結構,也因此沒讓我聽到我想聽聞的細節,算是有點可惜,不過這畢竟是我們第一次讀書會所以未能有充足的訓練,我相信之後我們會更好。

 

5.  (吳俊慶)

今天是中秋節,開場時由蘇意筑同學唱一首,但願人長久來慶祝佳節,接下來就開始今天的讀書會,我們的主題是大數據,大數據的重點是,在巨量的資料裡,經過一些處裡後,取得有用的資訊,來做預測或分析,第一個分享的是小波轉換,報告人是峻銘學長,小波轉換的重點是將資料經由小波轉換的矩陣運算後,用轉換後的數據去計算變異數將資料分群,應用的部分學長將一位使用者的一年當中每天蒐集96個點的資料,經由小波轉換過後,大致分群為15群,代表這位用電者一年當中用電行為主要有15種模式,未來是希望將更多的人的用電資訊經由小波轉換後,將資料分成幾大類,再利用類神經網路,來預測每日用電量,再來第二個報告主題是CNN(Convolutional Neural Networks),報告者是陳泰榮同學和郭宗淵同學,CNN主要是用來處理圖像的類神經網路,整體有分為前處理、輸入資料,類神經網路運算,輸出資料,在前處理的部分他們先將圖像經由一些向量上的轉換,去除掉圖形中不必要的資訊,再將剩下的資訊轉換成輸入形式,Input到類神經網路裡運算,中間他們講了很多細節,時間快要不夠所以下次還會繼續分享,最後是由黃品皓同學簡單介紹ANN(Artificial Neural Network)ANN是用Time series forecasting and linear Regression來預測,他看的這篇是由1991年提出來的ANN用於預測用電量,準確度竟然高達90%以上,但由於過去的用電量紀錄方法沒有那麼好,所以這個方法有待我們再去驗證。

 

6.  (郭宗淵)

今天是個特別的日子,不但是中秋節也是第一次讀書會的開始,感謝我們的導讀人在開場時為我們帶來一首十分應景的歌曲,非常地扣人心弦。大數據是現在資料分析的趨勢,而大數據重要的便是如何從這麼龐大的數據中找出有用的資料且分群處理。而第一位演講者小銘便介紹他是如何運用小波轉換將用電資料分群,他對小波轉換的介紹邏輯十分清楚,使我們能簡單的了解小波轉換的結構,且資料分析都有圖片使我們可以一目了然,也有合理的分群解釋,對同學的提問也能清楚說明,非常厲害,真的是我們需要學習的榜樣。而我們這組第一次上台報告,介紹的內容是CNN(卷積類神經網路),在台上的經驗差距很明顯就出來了,內容有許多地方沒邏輯說清楚,導致很多同學因為聽不太懂而提了很多問題,且沒有足夠的內容可以對照說明,更增加了理解上的困難,這是我們需要改進的地方。而最後是品皓簡介了他所看到ANN論文,其中他所提到的時間序列問題及變數問題十分有趣,因為要將天氣、天災、人禍等因素考慮進去預測用電量感覺十分複雜,若是ANN能解決這問題真的是十分厲害。這次的讀書會十分的有趣,大家也都十分的用心聽台上的人講解,也希望以後的讀書會我們都能準備充足的內容,並改善自己在台上的表現。

 

7.   (纪俊宇)

工工所「大數據分析入門讀書會」在花好月圓的中秋夜開始舉行,開場主持人唱了一首王菲「但願人長久」為讀書會帶來了序曲,同時也讓讀書會的氣氛變得輕鬆。

這次讀書會的成員分享了自己最近手上正在進行的專題,主要內容牽涉大量的數據或照片,為了處理這麼大量的資料,成員運用了一些方法來加速資料被處理的效率並且提升最終判定的正確性,這讓大數據分析處理起來更為理想。 過程中,成員彼此交流如何處理遇到的難題及正在想辦法解決還沒克服的癥結點,我想這確實起到了「做中學,學中做」的精神,藉由讀書帶動學術的交流,同時也讓所學的知識慢慢發酵,讓知識成為陳年老酒,越陳越香,我想腹有詩書氣自華就是這樣一點一滴累積起的吧!

 


蘇意筑 / 2017-10-10
第四次讀書會心得 2017-10-31 2017-11-04 第三次讀書會心得 2017-10-24 2017-11-01 第二次讀書會心得 2017-10-11 2017-10-23 第一次讀書會心得 2017-10-4 2017-10-10


Copyright©2007-2009 National Tsing Hua University ALL RIGHTS RESERVED
最佳解析度為1024*768或1280*1024
聯絡我們 101, Section 2, Kuang-Fu Road, Hsinchu, Taiwan 30013, R.O.C. 30013 新竹市光復路二段101號 代表號:03-5716200 統一編號:46804804