授課科目名稱:巨量資料分析 Big Data Analysis [105學年度(下): 2017.02~2017.06]
授課教師: 吳漢銘 (臺北大學 統計系 副教授), 研究室: 商館大樓七樓 7F22室 分機: 66773。
Office Hour: (待公告)。 E-mail: hmwu@gm.ntpu.edu.tw
應修系級: 統計所碩士班。必/選修: 選修。學分數:3 學分 3小時
上課時間地點: 五/ 02~04, 商7F28電腦教室。 改「資1F-14」教室。
實習課時間: (待公告)。助教: (待公告)。
公告:
- 置頂: [2016/12/15] 出缺席、考試成績、學期成績紀錄。(最近更新: 2016/07/07)
- [2017/06/18] 期末報告錄影,點選直接看影片(限Firefox, Chrome):
- 1-腸江後浪推前浪(賀慶軒,陳彥霖,鄭琪珍): 家常便飯 家腸病患 [簡報]
- 2-三峽永和豆漿大王(洪允玄,粘佑任,陳冠豪): 信用評等如何 統計告訴你 [簡報]
- 3-練肖威(楊采青,陳紹平,余貴如): 美國犯罪率之探討研究 [簡報]
- 4-茶水隊(黃冠瑋,周擎,胡恩愷): Solar Radiation Prediction [簡報]
- 5-山泉水(謝永祐,陳欣吟): 以領養代替購買 [簡報]
- 6-Future staR (林佳瑩,張芳綺,楊景雯): 人力資源分析-員工流失 [簡報]
- 7-夯番薯 (賴彥丞,張瑛珊,李昱廷): Instacart [簡報]
- 8-這兩位同學 (高于晴,陳映儒): 是誰影響了西雅圖金郡的房價? [簡報]
- 9-摸魚囉 (張馨予,郭家諭,羅亭軒): 以文案內文及特性預測台灣群眾募資平台之專案成功與否 [簡報]
- Kyper工程師講評
- [2017/06/10] Notes for AWS | 補充資料: 漫談大數據與資料科學
- [2017/06/10] 呵嚀: 期末報告(電子書面及上台簡報錄影)會公開放到教學網站上,任何人都可以上網看到你們的作品,所以切記,不要有抄襲致敬等等違背學術倫理的行為出現。
- [2017/06/07] 請註冊一個AWS帳號(需個人信用卡資料)。 https://aws.amazon.com/tw/free/
- [2017/05/18] 請同學上「數位學苑」填寫問卷「學生自我評鑑調查」,填答期間2017/06/05(一)~25(日)。
- [2017/05/16] 巨量資料分析期末報告注意事項。
- [2017/05/15] 上網填報分組: 隊名及組員。
- [2017/04/14] 新增「Kyper專區」、期末報告「資料專區」如下。請同學即早分好組別(最多3人一組),並取一隊名。
- [2017/04/06] 作業2,上傳期限: 2017/04/17, 24:00。
- [2017/03/29] 作業1,上傳期限: 2017/04/02, 24:00。
- [2017/03/09 ] 3/24(五)第一次小考: 範圍: Lecture 1&2 (open book)。可自帶筆電。
- [2017/02/23] 上課練習資料。
- [2016/12/27] 大學部同學不建議選修本課程!
- [2016/12/27] 給選修本課程之同學: 若同學R語言不熟,請利用寒假自行練習以下部份: http://www.hmwu.idv.tw/index.php/r-software
(1) R語言統計計算環境介紹; (2) R程式語言的基礎: 物件 (3) 資料的輸入與輸出 (資料檔); (4) 編寫R函式; (5) R程式設計風格及範例講解。 - [2016/12/14] 開學後第二週,確定選課之同學請加入「105-2-巨量資料分析」FB聊天群組。第三週起,進電腦教室上課,請固定座位入坐。
- [2016/12/14] 美商數據新創公司 Kyper Data Technologies介紹:
- 官網: https://www.kyper.com/
- 大數據解密 提前洞悉市場風向 正港台灣囝仔出招 打造華爾街新武器 (2016/06/10 出處:財訊雙週刊 第 504 期 作者:周思含)
http://www.wealth.com.tw/article_in.aspx?nid=8195 - 天氣變好了,股市交易量會變好嗎?Kyper 資料庫也許可以給你答案
https://panx.asia/archives/45550 - 大數據該怎麼用 達人開講
http://money.udn.com/money/story/5648/1833813 - Data-as-a-Service Analytics Startup Kyper Taps WSH for Events Data
http://www.waterstechnology.com/inside-market-data/news/2453762/data-as-a-service-analytics-startup-kyper-taps-wsh-for-events-data - Wall Street Horizon Data to Be Offered Through Kyper's Revolutionary New Data-as-a-Service Platform
http://www.wallstreethorizon.com/kyper
- [2016/12/14] 修習本課程的同學,需要有R語言的基礎,且有勇於接受挑戰的信心。(因電腦教室容量限制,本課程限修人數為20人)
- [2016/12/14] 校訂教學計畫表。
Kyper專區:
- 上課講義:
- Lecture-01: 巨量資料分析期末專題介紹
- Lecture-02: 資料分析實務分享 | data-20170512.zip | 範例R程式碼 | grupo_EDA.Rmd
[課堂練習] 一張地圖上可以顏色畫出A產品銷售量,或B產品銷售量。若想要畫此地圖上出A、B產品哪個銷售量比較好,該怎麼做?例如: 畫C=log_2(A/B)於地圖上。可採用雙向色階。(綠---白---紅),偏綠(B賣的好)、偏白(一樣好)、偏紅(A賣的好)。 - Lecture-03: 文字探勘基礎介紹 | data | Rmarkdown結果: http://rpubs.com/jkw552403/278206
- Lecture-04: 財務分析基礎
- Lecture-05: 深度學習基礎 | NN in R.Rmd | Rmarkdown結果: https://rpubs.com/jkw552403/283196
資料專區(隨時更新):
- The Instacart Online Grocery Shopping Dataset 2017
- This anonymized dataset contains a sample of over 3 million grocery orders from more than 200,000 Instacart users.
https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
- This anonymized dataset contains a sample of over 3 million grocery orders from more than 200,000 Instacart users.
- [Kyper] 1. Consumer Services Mediated Complaints (NYC OpenData)
- https://data.cityofnewyork.us/Business/Consumer-Services-Mediated-Complaints/nre2-6m2s紐約客訴資料,包含被客訴的商店以及產業類別、內容以及最後調解有沒有成功。
- 資料量不大只有數千筆,中間有一些text資料要花點工夫做前處理才能變成類別變數。除了預測調解成功以否外,學生也可以透過位置資料做一些地域分析。
- [Kyper] 2. SF Bay Area Bike Share(Kaggle)
- https://www.kaggle.com/benhamner/sf-bay-area-bike-share
- 這份資料提供了四張表格,分別是車站資訊、車站在不同時間點的狀態(有多少車可以借以及可以停)、借車的旅程紀錄(借還的站以及開始結束時間點)跟天氣資訊。資料是從2013/08~2015/08,csv加起來大概是215MB,資料欄位也算是豐富。可以做不少應用,如流量預測(日/小時全部流量或各站流量),旅途落點預測等。有心也可以結合SF外部資訊去延伸。
- [Kyper] 3. Sales Data
- a. Rossman Store Sales:
- https://www.kaggle.com/c/rossmann-store-sales
- 實體店面資料跟歷史銷售紀錄,有包含promotion以及簡單行事曆
- b.Grupo Bimbo Inventory Demand:
- https://www.kaggle.com/c/grupo-bimbo-inventory-demand
- 同樣是實體店面銷售紀錄,但有包含消費者資訊
- c. Walmart Recruiting - Store Sales Forecasting
- a. Rossman Store Sales:
教學目的:本課程分為兩部份。第一部份由開課教師授課,以R軟體工具,讓學生實際進行資料處理及統計分析,期望學生能從資料中了解問題、發掘問題,並擷取有用的資訊以解決問題。針對巨量資料分析,會以相關技術(Hadoop/Spark)及服務平台(AWS/MSAzure)為輔助。課程第二部份,由美商數據新創公司(Kyper Data Technologies)負責講授一系列業界資料實務分析方法及技術,期望學生在學期間能有統計實務應用的訓練。(註: Kyper 公司可能會使用Python為分析工具。)
教學內容及進度(依實際教學進度隨時修正!!):
週次 | 月/日 | 內容 |
小考日期及範圍/備註 |
第一週 | 02/24 |
Course Introduction, Programming with R,網路爬蟲(Crawler) using R,Import/Export data from SQL database |
[Week01-Lecture] |
第二週 | 03/03 |
Data Manipulation with R: 資料處理與篩選 |
[Week02-Lecture] |
第三週 | 03/10 |
High-performance computing with R (including parallel programming (rmpi), pdbR package) Data Manipulation with R: 資料處理與篩選 |
[Week03-Lecture] |
第四週 | 03/17(五): 大數據分析研討會 |
Exploratory Data Analysis and Data visualization |
|
第五週 | 03/24 |
Data mining (including regression, clustering, classification, assocation rule) |
小考(1): Lecture 1 & 2; 下載考卷 |
第六週 | 03/31(五) 補放假 (2016/10/29校慶) |
Data mining (including regression, clustering, classification, assocation rule) |
|
第七週 | 04/07 |
Hadoop/MapReduce (RHadoop), Spark (SparkR) |
小考(2): data mining |
第八週 | 04/14 |
Amazon Web Services/Microsoft Azure, Jupyter+R |
|
第九週 | 04/21 補課 補03/17(五) |
期中考試週 (本週要補課,上正課) |
期中考順延一週 |
第十週 | 04/28: 經濟與統計大趨勢學術研討會 |
期中考(Open Book, 上機考) |
本週期中考: 範圍: Data Manipulation with R& EDA; [下載考卷] |
第十一週 | 05/05 |
Kyper: Kaggle: Your Home for Data Science |
|
第十二週 | 05/12 |
Kyper: Case studies: image recognition |
|
第十三週 | 05/19 |
Kyper: Case studies: security/finance |
|
第十四週 | 05/26 |
Kyper: Case studies: prediction of forest fires |
|
第十五週 | 06/02 |
Kyper: Case studies: predicting price movement in market microstructure |
|
第十六週 | 06/09 |
Kyper: Case studies: fault detection |
|
第十七週 | 06/16 |
期末上台報告 (I), student final project |
|
第十八週 | 06/23(五) 停課 南區統計研討會 |
期末上台報告 (II), student final project |
|
教材課本: 教師自編講義。[http://www.hmwu.idv.tw/index.php/r-software]
主要參考資料/書目 :
- [Data Science]
- Hadley Wickham (Author), Garrett Grolemund, R for Data Science: Visualize, Model, Transform, Tidy, and Import Data, O'Reilly Media; 1 edition (December 25, 2016)
- Raja B. Koushik, Sharan Kumar Ravindran, R Data Science Essentials, Packt Publishing. (January 13, 2016)
- Deborah Nolan, Duncan Temple Lang, Data Science in R: A Case Studies Approach to Computational Reasoning and Problem Solving (100 Cases), Chapman and Hall/CRC; 2015 edition (April 21, 2015)
- Nina Zumel, John Mount, Practical Data Science with R, Publisher: Manning; 1st edition (April 13, 2014)
- [Big Data Analysis]
- Simon Walkowiak, Big Data Analytics with R, Packt Publishing. (July 29, 2016)
- Vignesh Prajapati, Big Data Analytics with R and Hadoop, Packt Publishing (November 25, 2013)
- Mark Hornick, Tom Plunkett, Using R to Unlock the Value of Big Data: Big Data Analytics with Oracle R Enterprise and Oracle R Connector for Hadoop, McGraw-Hill Education; 1 edition (June 27, 2013)
- Bradley Boehmke, Data Wrangling with R (Use R!), Springer; 1st ed. 2016 edition (December 16, 2016)
- [Data Mining]
- RDataMining.com: R and Data: http://www.rdatamining.com/
- Pawel Cichosz, 2015, Data Mining Algorithms: Explained Using R, Wiley; 1 edition (January 27, 2015).
- Yanchang Zhao, Yonghua Cen, 2013, Data Mining Applications with R, Academic Press; 1 edition (December 26, 2013)
- 黄文, 王正林, 2014, 利用R語言打通大數據的經脈, 出版社:佳魁資訊, 2014/12/26.
成績考核方式:
- 平時小考成績(第一部份):20 % (共2次小考,各佔 10%分)。(Myabe take home)
- 期中考成績:30 % (資料分析) 。
- 平時成績(第二部份) + 期末考專案成績:50 % (上台報告) 。
- 調分參考: 點名,上課表現,學習態度等等。(個人原因一概不予調分)。
備註 (上課相關):
- 課堂以投影片(電腦_投影機)講授為主。上課前請先列印講義或將講義PDF存到個人USB隨身碟。
- 缺課、曠課相關規定,依校規辦理。
- 上課以「互相尊重」為最高原則並盡到「告知老師」的義務。
- 上課請認真聽講並動腦思考。
- 上課: (1) 可小聲討論。 (2) 可上廁所安靜去回。 (3) 可飲食。(但請一定要維護教室整潔)(電腦教室不可飲食) (4) 可帶筆電自行練習。
- 上課: (1) 手機請關靜音震動,不可「玩」手機。(2) 不可看其它書籍或上與課程無關的網站(尤其是FB)。(3) 不可聊天、睡覺、打牌、抽煙等與學習本學科無關之事。
- 四不一要: 「上課不聊天,睡覺不趴著,手機不要滑,考試不作弊,要認真。」
- 課業上的問題,請同學互相討論後,再去問助教。 若有其它建議或問題反應,請e-mail老師或FB留言。
- 上述「教學內容及進度」會依實際教學狀況修正。
- 請隨時參閱課程網站(習題、公告、討論): http://www.hmwu.idv.tw。
備註 (考試、成績相關):
- 小考時間為星期五。小考無特殊原因不得補考。(特殊原因請先報告老師)。
- 考試作弊同學當次及日後之任何試卷及作業,老師全部不予批改。情節重大報校處理。
- 對成績有疑問,請於當次成績公佈後一星期內連絡老師。
- 出席點名為加分項目,但一學期之出席次數需達到點名次數2/3以上始得加分。