授課科目名稱:高維度資料分析 High Dimensional Data Analysis [106學年度(上): 2017.09~2018.01]
授課教師: 吳漢銘 (臺北大學 統計系 副教授), 研究室: 商館大樓七樓 7F12室 分機: 66773。
Office Hour: (待公告)。 E-mail: hmwu@gm.ntpu.edu.tw
應修系級: 統碩1/2,統計系4,巨量資料探勘學士學程。必/選修: 選修。學分數:3 學分 3小時
上課時間地點: 三/ 02~04, 資1F-10。
實習課時間: 無。助教: 無。
公告:
- 置頂: [2017/09/04] 出缺席、考試成績、學期成績紀錄。(最近更新: 2017/09/04)
- [2018/01/16] 期末報告錄影檔 | 期末報告簡報檔
- [2017/11/01] 作業(4), 繳交日期:2017/11/07,24:00。
- [2017/09/27] Exploratory data analysis
- http://www.hmwu.idv.tw/web/R/C00-hmwu_R-EDA-Introduction.pdf
- https://en.wikipedia.org/wiki/Exploratory_data_analysis
- http://datascienceguide.github.io/exploratory-data-analysis
- http://www.itl.nist.gov/div898/handbook/eda/eda.htm
- http://www.stat.cmu.edu/~hseltman/309/Book/chapter4.pdf
- https://onlinecourses.science.psu.edu/stat504/node/10
- https://www.r-bloggers.com/exploratory-data-analysis-using-r-part-i/
- https://www.r-bloggers.com/introducing-xda-r-package-for-exploratory-data-analysis/
- https://www.r-bloggers.com/exploratory-data-analysis-techniques/
- [2017/09/26] 期末報告Word檔。
- [2017/09/26] 上課練習資料: 每個類別需至少選一個資料練習。
- (A) p<<n:
- Wine Quality Data Set (4898x12): https://archive.ics.uci.edu/ml/datasets/Wine+Quality
- Wine Data Set (178x13): https://archive.ics.uci.edu/ml/datasets/wine
- Forest Fires Data Set (517x13): https://archive.ics.uci.edu/ml/datasets/Forest+Fires
- Breast Cancer Wisconsin (Diagnostic) Data Set (569x32): https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29
- Heart Disease Data Set (303x75): https://archive.ics.uci.edu/ml/datasets/Heart+Disease
- (B) p<n:
- NoisyOffice Data Set (216x216): https://archive.ics.uci.edu/ml/datasets/NoisyOffice
- Arrhythmia Data Set (452x279): https://archive.ics.uci.edu/ml/datasets/Arrhythmia
- ISOLET Data Set (7797x617): https://archive.ics.uci.edu/ml/datasets/ISOLET
- (C) p>n:
- LSVT Voice Rehabilitation Data Set (126x309): https://archive.ics.uci.edu/ml/datasets/LSVT+Voice+Rehabilitation
- Detect Malacious Executable(AntiVirus) Data Set (373x513): https://archive.ics.uci.edu/ml/datasets/Detect+Malacious+Executable%28AntiVirus%29
- Gastrointestinal Lesions in Regular Colonoscopy Data Set (76x698): https://archive.ics.uci.edu/ml/datasets/Gastrointestinal+Lesions+in+Regular+Colonoscopy
- (A) p<<n:
- [2017/09/19] 作業(2), 繳交日期:2017/10/10,24:00。
- [2017/09/19] 作業(1), 繳交日期:2017/10/03,24:00。
- [2017/09/13] R程式作業繳交方式。
- [2017/09/04] R講義。
- [2017/09/04] 上課地點在「資1F-10」。
- [2017/09/04] 校訂教學計畫表。
教學目的: 本課程主要介紹高維度資料分析的理論、計算方法及應用。內容包括主成份分析、古典相關性分析、區別分析、群集分析、因素分析、多維尺度法、獨立成份分析及高維度資料的視覺化等等。課程中會搭配R語言撰寫程式實作資料分析,希望提昇學生資料分析的實務經驗的同時,也培養學生觀察資料及提問思辨能力。
教學內容及進度(依實際教學進度隨時修正):
週次 | 月/日 | 內容 |
小考日期及範圍/備註 |
第一週 | 09/13 |
Course Introduction, Introduction to R |
|
第二週 | 09/20 |
作業(1)、作業(2) | |
第三週 | 09/27 |
Principal component analysis |
|
第四週 | 10/04 |
Canonical correlation analysis |
中秋節放假一次 |
第五週 | 10/11 |
Discriminant analysis |
小考(1): R 下載考卷 |
第六週 | 10/18 |
Norms, proximities, features, and dualities |
|
第七週 | 10/25 |
Cluster analysis |
小考(2): |
第八週 | 11/01 |
R程式練習與資料分析 (I) |
小考(2): PCA, CCA [下載考卷] |
第九週 | 11/08 | 期中考試 [Cluster analysis] |
期中考延期 |
第十週 | 11/15 |
Factor analysis |
|
第十一週 | 11/22 |
Multidimensional scaling |
範圍: LDA, Cluster Analysis [下載考卷] |
第十二週 | 11/29 |
Towards non-Gaussianity |
|
第十三週 | 12/06 |
Independent component analysis |
|
第十四週 | 12/13 |
Projection pursuit |
小考(3): MDS, ISOMAP [下載考卷] |
第十五週 | 12/20 |
Kernel and more independent component method |
|
第十六週 | 12/27 |
Feature selection |
|
第十七週 | 01/03 |
R程式練習與資料分析 (II) |
|
第十八週 | 01/10 | 期末考試: 簡報 |
範圍: |
教材課本: Inge Koch, 2013, Analysis of Multivariate and High-Dimensional Data, Publisher: Cambridge University Press; 1 edition (December 2, 2013)
參考資料 :
- Christophe Giraud, 2015, Introduction to High-Dimensional Statistics, Publisher: Chapman and Hall/CRC (December 17, 2014)
- Peter Bühlmann and Sara van de Geer, 2011, Statistics for high-dimensional data: methods, theory and applications. Publisher: Springer; 2011 edition (June 14, 2011)
- Tony Cai,and Xiaotong Shen (Editors), High-dimensional Data Analysis (Frontiers of Statistics), Publisher: World Scientific Publishing Company (December 15, 2010)
- Fatemeh Emdad, and Seyed (Reza) Zekavat, 2008, High Dimensional Data Analysis: Overview, Analysis, and Applications, Publisher: VDM Verlag (October 9, 2008)
- Damien François, 2008, High-dimensional Data Analysis, Publisher: VDM Verlag (May 1, 2008)
成績考核方式:
- 平時小考成績:30 % (共3次小考,各佔 10%分)。
- 期中考成績:30 % 。
- 期末考成績:40 % 。
- 助教: 0% 。
- 調分參考: 點名,上課表現,學習態度等等。(個人原因一概不予調分)。
備註 (上課相關):
- 課堂以投影片(電腦_投影機)講授為主。上課前請先列印講義或將講義PDF存到個人USB隨身碟。
- 缺課、曠課相關規定,依校規辦理。
- 上課以「互相尊重」為最高原則並盡到「告知老師」的義務。
- 上課請認真聽講並動腦思考。
- 上課: (1) 可小聲討論。 (2) 可上廁所安靜去回。 (3) 可飲食。(但請一定要維護教室整潔)(電腦教室不可飲食) (4) 可帶筆電自行練習。
- 上課: (1) 手機請關靜音震動,不可「玩」手機。(2) 不可看其它書籍或上與課程無關的網站(尤其是FB)。(3) 不可聊天、睡覺、打牌、抽煙等與學習本學科無關之事。
- 四不一要: 「上課不聊天,睡覺不趴著,手機不要滑,考試不作弊,要認真。」
- 課業上的問題,請同學互相討論後,再去問助教。 若有其它建議或問題反應,請e-mail老師或FB留言。
- 上述「教學內容及進度」會依實際教學狀況修正。
- 請隨時參閱課程網站(習題、公告、討論): http://www.hmwu.idv.tw。
備註 (考試、成績相關):
- 小考無特殊原因不得補考。(特殊原因請先報告老師,然後補考)。三次小考中限補考一次。
- 考試作弊同學當次及日後之任何試卷及作業,老師全部不予批改。情節重大報校處理。
- 對成績有疑問,請於當次成績公佈後一星期內連絡老師。
- 出席點名為加分項目,但一學期之出席次數需達到點名次數2/3以上始得加分。