class: center, middle, inverse, title-slide # Harbor Water Quality ### 廖冠傑 ### 2020年12月23日 --- ### 資料介紹 #### 資料名稱 : Harbor Water Quality ####資料來源 : 紐約市政府 #### 資料地點 : 美國紐約市 ####資料時間 : 1909年至2019年 ```r dim(dd) ``` ``` ## [1] 91897 88 ``` --- ###資料介紹 <img src="pic/01.png" width="85%" style="display: block; margin: auto;" /> --- ###資料介紹 <table> <thead> <tr> <th style="text-align:left;"> 變數名稱 </th> <th style="text-align:left;"> 變數解釋 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Season </td> <td style="text-align:left;"> 季節 </td> </tr> <tr> <td style="text-align:left;"> DayNight </td> <td style="text-align:left;"> 日夜 </td> </tr> <tr> <td style="text-align:left;"> Weather </td> <td style="text-align:left;"> 天氣 </td> </tr> <tr> <td style="text-align:left;"> Top_Temp </td> <td style="text-align:left;"> 上層溫度 </td> </tr> <tr> <td style="text-align:left;"> Bottom_Temp </td> <td style="text-align:left;"> 下層溫度 </td> </tr> <tr> <td style="text-align:left;"> Actual_Depth </td> <td style="text-align:left;"> 實際深度 </td> </tr> <tr> <td style="text-align:left;"> Top_Depth </td> <td style="text-align:left;"> 上層記錄深度 </td> </tr> <tr> <td style="text-align:left;"> Bottom_Depth </td> <td style="text-align:left;"> 下層記錄深度 </td> </tr> <tr> <td style="text-align:left;"> Top_Salinity </td> <td style="text-align:left;"> 上層鹽度 </td> </tr> <tr> <td style="text-align:left;"> Bottom_Salinity </td> <td style="text-align:left;"> 下層鹽度 </td> </tr> <tr> <td style="text-align:left;"> Top_Conductivity </td> <td style="text-align:left;"> 上層導電率 </td> </tr> <tr> <td style="text-align:left;"> Bottom_Conductivity </td> <td style="text-align:left;"> 下層導電率 </td> </tr> </tbody> </table> --- ###資料介紹 <table> <thead> <tr> <th style="text-align:left;"> 變數名稱 </th> <th style="text-align:left;"> 變數解釋 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Top_Dissolved_Oxygen </td> <td style="text-align:left;"> 上層含氧量 </td> </tr> <tr> <td style="text-align:left;"> Bottom_Dissolved_Oxygen </td> <td style="text-align:left;"> 下層含氧量 </td> </tr> <tr> <td style="text-align:left;"> Top_O2_Saturation </td> <td style="text-align:left;"> 上層飽和含氧量 </td> </tr> <tr> <td style="text-align:left;"> Bottom_O2_Saturation </td> <td style="text-align:left;"> 下層飽和含氧量 </td> </tr> <tr> <td style="text-align:left;"> Top_Light_Trans </td> <td style="text-align:left;"> 上層透光率 </td> </tr> <tr> <td style="text-align:left;"> Bottom_Light_Trans </td> <td style="text-align:left;"> 下層透光率 </td> </tr> <tr> <td style="text-align:left;"> Top_Sigma </td> <td style="text-align:left;"> 上層密度 </td> </tr> <tr> <td style="text-align:left;"> Bottom_Sigma </td> <td style="text-align:left;"> 下層密度 </td> </tr> <tr> <td style="text-align:left;"> Top_Fluorometer </td> <td style="text-align:left;"> 上層螢光劑溶解量 </td> </tr> <tr> <td style="text-align:left;"> Bottom_Fluorometer </td> <td style="text-align:left;"> 下層螢光劑溶解量 </td> </tr> <tr> <td style="text-align:left;"> Top_Photosysthetically </td> <td style="text-align:left;"> 上層光合成有效放射率 </td> </tr> <tr> <td style="text-align:left;"> Top_Par </td> <td style="text-align:left;"> 上層氣壓 </td> </tr> <tr> <td style="text-align:left;"> Bottom_par </td> <td style="text-align:left;"> 下層氣壓 </td> </tr> </tbody> </table> --- ###資料介紹 <table> <thead> <tr> <th style="text-align:left;"> 變數名稱 </th> <th style="text-align:left;"> 變數解釋 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Top_Oxidation_Reduction_Potential </td> <td style="text-align:left;"> 上層氧化還原電位 </td> </tr> <tr> <td style="text-align:left;"> Bottom_Oxidation_Reduction_Potential </td> <td style="text-align:left;"> 下層氧化還原電位 </td> </tr> <tr> <td style="text-align:left;"> Water_Speed </td> <td style="text-align:left;"> 水流速度 </td> </tr> <tr> <td style="text-align:left;"> Water_Direction </td> <td style="text-align:left;"> 水流方向 </td> </tr> <tr> <td style="text-align:left;"> Wind_Speed </td> <td style="text-align:left;"> 風速 </td> </tr> <tr> <td style="text-align:left;"> Wind_Direction </td> <td style="text-align:left;"> 風向 </td> </tr> <tr> <td style="text-align:left;"> Secchi_Depth </td> <td style="text-align:left;"> 混濁度 </td> </tr> <tr> <td style="text-align:left;"> Top_PH </td> <td style="text-align:left;"> 上層酸鹼度 </td> </tr> <tr> <td style="text-align:left;"> Bottom_PH </td> <td style="text-align:left;"> 下層酸鹼度 </td> </tr> <tr> <td style="text-align:left;"> Fecal_Coliform_Bacteria </td> <td style="text-align:left;"> 糞生大腸桿菌 </td> </tr> <tr> <td style="text-align:left;"> Enterococci_Bacteria </td> <td style="text-align:left;"> 腸球菌 </td> </tr> <tr> <td style="text-align:left;"> Nitrate </td> <td style="text-align:left;"> 硝酸鹽 </td> </tr> <tr> <td style="text-align:left;"> Ammonium </td> <td style="text-align:left;"> 銨 </td> </tr> </tbody> </table> --- ###資料介紹 <table> <thead> <tr> <th style="text-align:left;"> 變數名稱 </th> <th style="text-align:left;"> 變數解釋 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Phosphorus </td> <td style="text-align:left;"> 甲磷酸 </td> </tr> <tr> <td style="text-align:left;"> Kjeldhal_Nitrogen </td> <td style="text-align:left;"> 有機氮 </td> </tr> <tr> <td style="text-align:left;"> Silica </td> <td style="text-align:left;"> 矽 </td> </tr> <tr> <td style="text-align:left;"> Ortho.Phosphorus </td> <td style="text-align:left;"> 正磷酸鹽 </td> </tr> <tr> <td style="text-align:left;"> Top_Suspended_Solid </td> <td style="text-align:left;"> 上層懸浮固體 </td> </tr> <tr> <td style="text-align:left;"> Bottom_Suspended_Solid </td> <td style="text-align:left;"> 下層懸浮固體 </td> </tr> <tr> <td style="text-align:left;"> Chlorophyll </td> <td style="text-align:left;"> 葉綠素 </td> </tr> <tr> <td style="text-align:left;"> Organic_Carbon </td> <td style="text-align:left;"> 有機碳 </td> </tr> </tbody> </table> --- ###資料處理 ####刪除變數 ```r #CTD_PH_Top_Sample ``` ``` ## ## FALSE TRUE ## 8903 82994 ``` ```r #PCB_Plate_Count (多氯聯苯) 美國1979年禁止 ``` ``` ## ## FALSE TRUE ## 6654 85243 ``` --- ###樣本刪除 ```r head(table(dd$Wind_Direction_.Wind_Direction.),15) ``` ``` ## ## --- . .W \\W 0 1 10 10.2 10.7 10.8 11 11.4 ## 60709 6 1 1 1 833 1 8 1 1 1 1 1 ## 12.6 12.7 ## 1 2 ``` ```r tail(table(dd$Current_Direction_.Current_Direction.),15) ``` ``` ## ## W-3.7 W-4.4 W-4.8 W 1.3 W 1.6 WEAk WEAK WEST WLY WN ## 1 1 1 1 1 1 11 8 5 1 ## WNW WNW-0.3 WSW WW WWN ## 41 1 29 2 2 ``` --- ####資料轉換 ``` ## Top_Enterococci_Bacteria_.Cells.100mL. ## Min. : 0.0 ## 1st Qu.: 2.0 ## Median : 6.0 ## Mean : 380.4 ## 3rd Qu.: 30.0 ## Max. :200000.0 ## NA's :59900 ``` <img src="ptt_files/figure-html/unnamed-chunk-17-1.png" width="55%" style="display: block; margin: auto;" /> --- ####共線性 ``` ## GVIF Df GVIF^(1/(2*Df)) ## Sample_Date 13.089473 3 1.535160 ## Sample_Time 1.133699 1 1.064753 ## Weather_Condition_.Dry_or_Wet. 1.247753 1 1.117028 ## Top_Sample_Temperature_ 92.214504 1 9.602838 ## Bottom_Sample_Temperature_ 91.122751 1 9.545824 ## Site_Actual_Depth_.ft. 33.089749 1 5.752369 ## Top_Sample_Depth.ft. 1.524756 1 1.234810 ## Bottom_Sample_Depth_.ft. 33.667731 1 5.802390 ## Top_Salinity_.psu. 66.352275 1 8.145691 ## Bottom_Salinity_.psu. 51.001317 1 7.141521 ``` ####遺失值處理 ``` ## MICE-PMM ``` ####資料維度 ```r dim(dd) ``` ``` ## [1] 10053 54 ``` --- ###資料分析 ####決定反應變數 <img src="pic/02.png" width="120%" style="display: block; margin: auto;" /> --- ####不平衡資料 <img src="ptt_files/figure-html/unnamed-chunk-23-1.png" width="55%" style="display: block; margin: auto;" /> ``` ## ## Bad Not Bad ## 0.043 0.957 ``` --- ####ROSE-UnderSampling <img src="ptt_files/figure-html/unnamed-chunk-26-1.png" width="55%" style="display: block; margin: auto;" /> ``` ## ## Not Bad Bad ## 0.492 0.508 ``` --- ###維度縮減 ####PCA(n>p) <img src="ptt_files/figure-html/unnamed-chunk-29-1.png" width="55%" style="display: block; margin: auto;" /> --- ###維度縮減 ####MDS(n>p) <img src="ptt_files/figure-html/unnamed-chunk-31-1.png" width="55%" style="display: block; margin: auto;" /> --- ###維度縮減 ####ISOMAP(n>p) <img src="ptt_files/figure-html/unnamed-chunk-33-1.png" width="55%" style="display: block; margin: auto;" /> --- ###維度縮減 ####比較 ``` ## k lcmc.pca lcmc.mds lcmc.isomap ## 1 5 0.887 0.586 0.614 ## 2 6 0.894 0.595 0.624 ## 3 7 0.897 0.600 0.636 ## 4 8 0.907 0.611 0.648 ## 5 9 0.907 0.616 0.660 ## 6 10 0.908 0.623 0.666 ## 7 11 0.911 0.633 0.674 ## 8 12 0.912 0.639 0.682 ## 9 13 0.913 0.648 0.690 ## 10 14 0.915 0.652 0.693 ## 11 15 0.913 0.655 0.700 ``` --- ###維度縮減 ####SVM(n>p) <img src="ptt_files/figure-html/unnamed-chunk-43-1.png" width="60%" style="display: block; margin: auto;" /> --- ###維度縮減 ####PCA(n=p) <img src="ptt_files/figure-html/unnamed-chunk-46-1.png" width="55%" style="display: block; margin: auto;" /> --- ###維度縮減 ####MDS(n=p) <img src="ptt_files/figure-html/unnamed-chunk-48-1.png" width="55%" style="display: block; margin: auto;" /> --- ###維度縮減 ####ISOMAP(n=p) <img src="ptt_files/figure-html/unnamed-chunk-50-1.png" width="55%" style="display: block; margin: auto;" /> --- ###維度縮減 ####比較 ``` ## k lcmc.pca lcmc.mds lcmc.isomap ## 5 5 0.816 0.377 0.402 ## 6 6 0.805 0.362 0.399 ## 7 7 0.808 0.400 0.417 ## 8 8 0.779 0.407 0.419 ## 9 9 0.748 0.425 0.447 ## 10 10 0.716 0.416 0.457 ## 11 11 0.709 0.417 0.437 ## 12 12 0.688 0.422 0.424 ## 13 13 0.664 0.405 0.422 ## 14 14 0.643 0.380 0.422 ## 15 15 0.615 0.386 0.420 ``` --- ###維度縮減 ####SVM(n=p) <img src="ptt_files/figure-html/unnamed-chunk-57-1.png" width="60%" style="display: block; margin: auto;" /> --- ###維度縮減 ####MDS(n<p) <img src="ptt_files/figure-html/unnamed-chunk-60-1.png" width="55%" style="display: block; margin: auto;" /> --- ###維度縮減 ####ISOMAP(n<p) <img src="ptt_files/figure-html/unnamed-chunk-62-1.png" width="55%" style="display: block; margin: auto;" /> --- ###維度縮減 ####比較 ``` ## k lcmc.mds lcmc.isomap ## 5 5 0.327 0.347 ## 6 6 0.326 0.326 ## 7 7 0.339 0.310 ## 8 8 0.329 0.329 ## 9 9 0.332 0.343 ## 10 10 0.354 0.364 ## 11 11 0.326 0.339 ## 12 12 0.310 0.323 ## 13 13 0.262 0.293 ## 14 14 0.217 0.238 ## 15 15 0.161 0.187 ``` --- ###維度縮減 ####SVM(n<p) <img src="ptt_files/figure-html/unnamed-chunk-68-1.png" width="60%" style="display: block; margin: auto;" /> --- ###結論 ####刪除過多觀察值 ####專業知識不足