hdda109
。密碼: xxx
。20201111-Midterm
」。學號-姓名-HDDA-MidtermExam.Rmd
」和「學號-姓名-HDDA-MidtermExam.html
」。若隨機變數\(X\)服從Weibull分配(簡記為\(X\sim Weib(\alpha, \beta)\)),其機率密度函數為 \[ f(x|\alpha, \beta)=\alpha\beta^{-\alpha}x^{\alpha-1}e^{-(x/\beta)^\alpha},\quad x>0. \]
若x <- seq(0, 5, 0.1)
,寫一R函式計算Weibull機率密度函數, 預設值為\(\alpha=1\), \(\beta=2\)。
# your source code here
若以graphics {base}
畫出\(X\sim Weib(\alpha, \beta=2)\)之圖形如下, 現請你改用ggplot2畫出。
# your source code here
資料來源: 政府資料開放平台。資料檔: 「File_15197.csv
」。 https://data.gov.tw/dataset/6399
讀取資料,印出資料前後各10筆紀錄。
# your source code here
以ggplot2,畫出台北市「癌症別: 肺、支氣管及氣管」歷年「癌症發生數」之長條圖。
# your source code here
依「縣市別」及「性別(不分性別、男。女)」之分類,癌症發生總數各是多少人?
# your source code here
依「性別(不分性別、男。女)」,列出癌症發生總數最高之前5名的癌症別及其總數。 (例: 男性之下,各癌症別發生總數 = 加總所有「癌症診斷年」及「縣市別」之下的各癌症別發生數 )
# your source code here
以下為模擬具有遺失值資料x
之R
程式碼:
1000
n <- 10
p <-set.seed(123456)
library(MASS)
matrix(rt(p*p, df=5), ncol = p)
s <- crossprod(s)
sigma <- mvrnorm(n, mu=rep(0, p), Sigma=sigma)
x <- 0.1
missing.percentage <-sample(n*p, floor(n*p*missing.percentage))] <- NA x[
畫出此資料的Aggregation plot。
# your source code here
選取完整之資料(命名為x.complete
), 印出此資料之維度(nc
\(\times\)pc
)。
# your source code here
將上述之資料隨機選取出比例為missing.percentage
之觀察值(\(\xi_i\)),設置成 NA
(命名為x.complete.na
)。 提示:
set.seed(54321)
sample(1:(nc*pc), floor(nc*pc*missing.percentage)) ij <-
# your source code here
利用下列4方法各自對上述資料(x.complete.na
)做補值: Mean Substitution, K-Nearest Neighbour Imputation (K=5), mice.impute.pmm {MICE}, mice.impute.norm {MICE}。
# your source code here
計算下列指標數值,評估上述5種補值方法: \[
\sum_{i=1}^{m} (\hat{\xi_i}-\xi_i)^2,
\] 其中m <- floor(nc*pc*missing.percentage)
、\(\xi_i\)為模擬遺失之真實值,\(\hat{\xi_i}\)為 \(\xi_i\)之補值。 \end{enumerate}
# your source code here