授課科目名稱:資料採礦, Data Mining [108學年度(下): 2020/03-2020/07]

  • 授課教師: 吳漢銘 (臺北大學 統計系 副教授), 研究室: 商館大樓七樓 7F12室 分機: 66773。
  • Office Hour: (六) 12:10~14:00。 E-mail: hmwu@gm.ntpu.edu.tw
  • 開課班級: 統碩職1、2 。必/選修: 修。學分數:單學期3 學分 3小時。
  • 上課時間地點:  六/02-04節(9:10~12:00)/民生校區教學大樓515電腦教室
  • 先修科目: 無。
  • 實習課時間:  無。助教:

 

公告:

  • 置頂:  出席、小考、期中、期末考成績紀錄表 (最近更新: 2012/02/20
     
  • [2020/06/23] 期末考型式: take home exam。繳交日期: 2020/07/25(六) 24:00前。
  • [2020/06/23] 上課時間異動: 07/04(六): 正常上課,07/05(日): 補04/04,07/12(日): 補06/27。
  • [2020/06/20] 上課時間異動: 6/27(六)端午連假,依同學上課意願投票狀況,決定「6/27及6/28不上課,再找其它星期六日補課」。
  • [2020/06/11] 上課時間異動: 6/20(六)因補行上班,故不上課。改至6/21(日)9:10~12:00補課。
  • [2020/06/11] 上課時間異動: 6/13(六)畢業典禮,不上課。 擇日補課。
  • [2020/06/08] DM作業(3),繳交日期: 2020/06/20(五) 24:00前。
  • [2020/05/30]
    • 6/6(六),9:10~10:00上課。10:10~12:00期中考。
    • 6/13(六)畢業典禮當天不上課。(提早)改到6/7(日)9:10~12:00補課。
  • [2020/05/22] DM作業(2),繳交日期: 2020/06/05(五) 24:00前。
  • [2020/05/22] 上課時間異動: 5/23(六) 9:10~12:00 改至5/24(日) 9:10~12:00.
  • [2020/04/06] 上課時間異動: 4/11(六) 9:10~12:00 改至4/12(日) 9:10~12:00.
  • [2020/04/06] DM作業(1),繳交日期: 2020/04/17(五) 24:00前。
  • [2020/03/29] 本課程遠距教學使用平台為: Zoom。電腦版下載點 1  | 下載點2
    • (1) (必要) 先把ZOOM軟體安裝好: 手機版,電腦版皆可。
    • (2) (選項) ZOOM帳號: 可用FB或Google帳號登入,或ZOOM註冊後登入。
    • (3) (必要) 上課時間到,開啟Zoom,「加入會議」,ID: 576 987 7999,將顯示名稱改為「學號+中文姓名」,例如「1234567+吳漢銘」,以利點名。
    • (4) (選項) 關掉聲音(手動關掉麥克風)。
    • (5) 注意: 若聽不到聲音、影像延遲,有可能是網路連線不穩,請確認網路狀況,重新進一次 ZOOM。
    • (6) 有問題可在ZOOM聊天室詢問或反應。老師會在下課時間回應。
  • [2020/03/14] 上課時間異動: 3/21(六) 9:10~12:00 改至3/22(日) 9:10~12:00.
  • [2020/02/20] 請修課同學加入「108-2-資料探勘」FB聊天室。
  • [2020/02/20] 如何上傳「學習紀錄」「練習題」「作業」「答案卷」等等
  • [2020/02/20] R講義
  • [2020/02/20] 講義請於下列「教學內容及進度」下載。上課時,可自行帶筆電來練習程式及案例分析。
  • [2020/02/20] 校訂教學計畫表

 

教學目的

本課程使用R為工具,學習資料探勘的一些原理及方法,讓學生實際進行資料處理及統計分析,從資料中了解問題,並擷取有用的資訊以解決問題。大綱如下: 上課內容為: 資料探勘簡介, R語言簡介(I)、R語言程式設計、R語言統計圖形、資料探勘簡介,探索性資料分析、遺失值處理,資料轉換、假設檢定與變異數分析、統計模型與迴歸分析、維度縮減、群集分析、分類法則、整合學習、關聯性分析、R網路爬蟲(若時間夠的話)。

 

教學內容及進度(依實際教學進度隨時修正)

週次 月/日 內容

回家功課/備註

第一週 03/07 資料探勘簡介探索式資料分析簡介、探索式資料分析與統計圖表  
第二週 03/14

資料處理與篩選

 
第三週 03/21

R軟體中的統計圖與視覺化 (ggplot2)

 
第四週 03/28 遺失值處理資料轉換   [簡化版]

第五週 04/04
[放假](擇日補課)

民族掃墓 節、兒童節 。

作業(1)

第六週 04/11 (改至4/12)

敘述統計與參數估計

可能會調課: 4/11(六) => 4/12(日) 
第七週 04/18

假設檢定與變異數分析

小考(1): 考卷下載
第八週

04/25

統計模型與迴歸分析

作業(2)

第九週

05/02

程式練習(I)

 

第十週

05/09

期中考 [上機考,Open book]   延後,擇日再考

 

第十一週 05/16 維度縮減 作業(3)
第十二週 05/23 (改至5/24)

群集分析(I)

 
第十三週 05/30 群集分析(II)  
第十四週 06/06

期中考 [上機考,Open book],9:10~12:00

範圍: 敘述統計/參數估計/假設檢定與變異數分析/統計模型與迴歸分析/維度縮減 [考卷下載]

第十五週 06/13 (畢典,提早6/7補課)

分類法則、整合學習

 
第十六週

06/20 改至 6/21

關聯性分析

第十七週 06/27(端午,擇日補課) R網路爬蟲, 練習(II)

第十八週 07/04 期末考 [期末分組報告]
期末考take home exam
繳交日期: 2020/07/25(六) 24:00前。

 

教材課本

教師自編上課教材 。 

參考教材

  • RDataMining.com: R and Data: http://www.rdatamining.com/ 
  • Robert Kabacoff, 2015, R in Action: Data Analysis and Graphics with R, Manning Publications; Second Edition (June 6, 2015)
  • Jaynal Abedin, and Kishor Kumar Das, 2015, Data Manipulation with R, Packt Publishing, 2 edition (March 31, 2015)
  • Pawel Cichosz, 2015, Data Mining Algorithms: Explained Using R, Wiley; 1 edition (January 27, 2015).
  • Bater Makhabel, 2014, Learning Data Mining with R, Packt Publishing, (December 22, 2014).
  • Nina Zumel, John Mount, and Jim Porzak, 2014, Practical Data Science with R, Manning; 1st edition (April 13, 2014)
  • Yanchang Zhao, Yonghua Cen, 2013, Data Mining Applications with R, Academic Press; 1 edition (December 26, 2013)
  • Nagiza F. Samatova, William Hendrix, et al., 2013, Practical Graph Mining with R, Chapman and Hall/CRC (July 15, 2013)
  • Johannes Ledolter, 2013, Data Mining and Business Analytics with R, Wiley; 1 edition (May 28, 2013)
  • Graham Williams, 2011, Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery, Springer; 2011 edition (August 4, 2011)
  • Luis Torgo, Data Mining with R: Learning with Case Studies, Chapman and Hall/CRC; 1 edition (November 9, 2010)
  • 李仁鐘, 2015, 應用R語言於資料分析:從機器學習、資料探勘到巨量資料, 出版社:松崗, 2015/06/17
  • 胡嘉璽 譯 (韓偉原著), 2015, 巨量資料的第一步:基礎R語言與商業應用, 出版社:上奇資訊, 2015/02/09.
  • 黄文, 王正林, 2014, 利用R語言打通大數據的經脈, 出版社:佳魁資訊, 2014/12/26.




成績考核方式

  • 平時成績:30% (小考共2次,每次15%)。

  • 期中考成績:30% 。(上機考,Openbook)

  • 期末考成績:40% 。(交分組電子檔報告)

  • 額外加分: 點名(10%)、作業(20%)、上課表現、隨堂練習上傳

 

備註 (上課相關)

  • 課堂以投影片(電腦_投影機)講授為主。上課前請先列印講義或將講義PDF存到個人USB隨身碟。
  • 缺課、曠課相關規定,依校規辦理。
  • 上課以「互相尊重」為最高原則並盡到「告知老師」的義務。
  • 上課請認真聽講並動腦思考。
  • 上課: (1) 可小聲討論。 (2) 可上廁所安靜去回。
  • 上課: (1) 不可使用手機相關電子產品。(手機請關靜音或震動。手機不可擺放至桌面) (2) 不可看其它書籍或上與課程無關的網站(尤其是FB)。(3) 不可聊天、睡覺、打牌 、抽煙等與學習本學科無關之事。(4) 不可飲食。
  • 四不一要: 「上課不聊天,睡覺不趴著,手機不要滑,考試不作弊,要認真。」
  • 課業上的問題,請同學互相討論後,再去問助教。 若有其它建議或問題反應,請e-mail老師FB留言
  • 上述「教學內容及進度」會依實際教學狀況修正。
  • 請隨時參閱課程網站(習題、公告、討論): http://www.hmwu.idv.tw

 

備註 (考試、成績相關)

  • 小考無特殊原因不得補考。(特殊原因請先報告老師)
  • 考試作弊或作業抄襲之同學當次及日後任何試卷及作業,老師全部不予批改。情節重大報校處理。
  • 對成績有疑問,請於當次成績公佈後一星期內連絡老師。
  • 出席點名為加分項目,但一學期之點名出席次數需達到點名總次數2/3以上始得加分。