授課科目名稱:高維度資料分析 High Dimensional Data Analysis [108學年度(上): 2020/09~2021/01]

授課教師: 吳漢銘 (臺北大學 統計系 副教授), 研究室: 商館大樓七樓 7F12室 分機: 66773。

Office Hour 星期三13:00~15:00E-mail: hmwu@gm.ntpu.edu.tw

應修系級: 統碩1/2,統計系4,巨量資料探勘學士學程,商業智慧與大數據分析學士學分學程。

必/選修: 選修。學分數:3 學分 3小時

上課時間地點:  三/ 02~04, 資1F-10。

實習課時間:  。助教:

公告

  • 置頂: [2020/09/14] 出缺席、考試成績、學期成績紀錄。(最近更新: 2020/08/06) 
     
  • [2020/09/14] 本課程配合高教深耕計畫之活動: (1) 20201115: (外聘)期中講座。(2) 20201231: 期末成果發表會 (kaggle競賽)。(3) 2020第二屆「AI金融科技創新創業大賽」。
  • [2020/09/14] 免費開放資料(摘錄自http://www.finereport.com/tw/knowledge/acquire/freedata.html)
  • [2020/09/14] 請修課同學加入FB課程聊天室: 「109-1-高維度資料分析」。
    (加入方法: (1) 已在聊天室之同學可將未加入的同學加入,或(2) 同學們FB私訊老師,由老師幫忙加入。 )
  • [2020/09/14] R程式作業繳交方式
  • [2020/09/14] R講義
  • [2020/09/14] 校訂教學計畫表。

 

教學目的: 本課程主要介紹高維度資料分析的理論、計算方法及應用。內容包括主成份分析、古典相關性分析、區別分析、群集分析、因素分析、多維尺度法、獨立成份分析及高維度資料的視覺化等等。課程中會搭配R語言撰寫程式實作資料分析,希望提昇學生資料分析的實務經驗的同時,也培養學生觀察資料及提問思辨能力。

 

教學內容及進度(依實際教學進度隨時修正)

週次 月/日 內容

小考日期及範圍/備註

第一週 09/16

Course Introduction, Introduction to R [課程簡介、分析工具: R軟體介紹]
[探索性資料分析] [資料探勘簡介] [歷年各業受雇員工每人每月經常性薪資-敘述統計]

 
第二週 09/23

Multidimensional data,R graphics: plot3d, PCP, rgl

[RMarkdown] [R 基礎統計圖形] [ggplt2]

 
第三週 09/30

Multidimensional data,R graphics: plot3d, PCP, rgl 
[地圖]

 
第四週 10/07

Canonical correlation analysis (CCA),regularized CCA

第五週 10/14

Canonical correlation analysis (CCA),regularized CCA

[遺失值處理] [資料轉換]


第六週 10/21

Linear Discriminant analysis + HDLSS

[維度縮減]

小考(1)
第七週 10/28 Cluster analysis  
第八週 11/04

R程式練習與資料分析 (I)

 
第九週 11/11 期中考試

期中考試

第十週 11/18

Multidimensional scaling (MDS)

 
第十一週 11/25

Isometric feature mapping (ISOMAP), DR quality assessment  

 
第十二週 12/02

Towards non-Gaussianity

 
第十三週 12/09

Independent component analysis

 
第十四週 12/16

Projection pursuit

 小考(2)
十五週 12/23

Kernel and more independent component method
[cluster analysis] [heatmap] [Classification]

因計畫核銷,成發日期改成12/23(三)!
第十六週 12/30

Feature selection, ensemble learning  
[Regression] [Regression-LASSO] [文獻]

 
第十七週 01/06

R程式練習與資料分析 (II)

 
第十八週 01/13 期末考試: 簡報

期末考

  

教材課本: Inge Koch, 2013, Analysis of Multivariate and High-Dimensional Data, Publisher: Cambridge University Press; 1 edition (December 2, 2013)

參考資料

  • Christophe Giraud, 2015, Introduction to High-Dimensional Statistics, Publisher: Chapman and Hall/CRC (December 17, 2014)
  • Peter Bühlmann and Sara van de Geer, 2011, Statistics for high-dimensional data: methods, theory and applications. Publisher: Springer; 2011 edition (June 14, 2011)
  • Tony Cai,and Xiaotong Shen (Editors), High-dimensional Data Analysis (Frontiers of Statistics), Publisher: World Scientific Publishing Company (December 15, 2010)
  • Fatemeh Emdad, and Seyed (Reza) Zekavat, 2008, High Dimensional Data Analysis: Overview, Analysis, and Applications, Publisher: VDM Verlag (October 9, 2008)
  • Damien François, 2008, High-dimensional Data Analysis, Publisher: VDM Verlag (May 1, 2008)
     




成績考核方式:(以下配分未確定)

  • 平時小考成績:30 % (共2次小考,各佔 15%分)。
  • 期中考成績:30 % 。
  • 期末考成績:40 % 。(型式: 上機考或報告、製作影片)
  • 助教: 0% 。
  • 調分參考: 點名(額外10%),上課表現,學習態度等等。(個人原因一概不予調分)。
     

備註 (上課相關)

  • 課堂以投影片(電腦_投影機)講授為主。上課前請先列印講義或將講義PDF存到個人USB隨身碟。
  • 缺課、曠課相關規定,依校規辦理。
  • 上課以「互相尊重」為最高原則並盡到「告知老師」的義務。
  • 上課請認真聽講並動腦思考。
  • 上課: (1) 可小聲討論。 (2) 可上廁所安靜去回。 (3) 可飲食。(但請一定要維護教室整潔)(電腦教室不可飲食) (4) 可帶筆電自行練習。
  • 上課: (1) 手機請關靜音震動,不可「玩」手機。(2) 不可看其它書籍或上與課程無關的網站(尤其是FB)。(3) 不可聊天、睡覺、打牌、抽煙等與學習本學科無關之事。
  • 四不一要: 「上課不聊天,睡覺不趴著,手機不要滑,考試不作弊,要認真。」
  • 課業上的問題,請同學互相討論後,再去問助教。 若有其它建議或問題反應,請e-mail老師FB留言
  • 上述「教學內容及進度」會依實際教學狀況修正。
  • 請隨時參閱課程網站(習題、公告、討論): http://www.hmwu.idv.tw

 

備註 (考試、成績相關)

  • 小考無特殊原因不得補考。(特殊原因請先報告老師,然後補考)。三次小考中限補考一次。
  • 考試作弊同學當次及日後之任何試卷及作業,老師全部不予批改。情節重大報校處理。
  • 對成績有疑問,請於當次成績公佈後一星期內連絡老師。
  • 出席點名為加分項目,但一學期之出席次數需達到點名次數2/3以上始得加分。