研究興趣


  • Bioinformatics: Statistical Methods for Microarray Data Analysis (生物資訊: 微陣列資料統計分析方法)
  • Information Visualization: Matrix Visualization (資訊視覺化: 矩陣視覺化)
  • Dimension Reduction: Sliced Inverse Regression (維度縮減: 切片逆迴歸法)
  • Statistical Computing and Software Using Java and R (統計計算與軟體: R 和 Java)
  • Statistical Learning: Kernel Machines, Manifold Learning (統計學習: 核機器,流形學習)
  • Statistical Applications: Image Segmentation(統計應用: 影像切割)

 

研究簡介


 生物資訊: 微陣列資料統計分析方法

基因微陣列(Microarray)是近十五年來基因體生物醫學研究的重要平台之一。其產生的龐大資料需要應用到統計分析及生物資訊的相關方法及軟體,期望能找出具有生物意義的結果。而這也是當前生物資訊研究者一直熱中的研究課題。由於研究人員對基因微陣列統計分析的需求,市面上(包含商業界以及學術界) 已有許多相關的分析應用軟體,從單純功能的影像處理、正規化處理、差異表現分析、群集分析、生物標誌(biomarker)的尋找、資料庫軟體的建置等等,到整合多項功能的軟體都有。然而, 從我們合作及統計咨詢對象的經驗中(部份合作成果已發表),在統計分析之前,基因微陣列資料的品質優劣是他們所關心的第一個主題。於是我們嘗試運用我們所發展的矩陣視覺化方法將基因微陣列資料呈現出來,並將之開發成一個套裝軟體,提供互動的功能,便於研究者使用,用以觀察晶片上基因表現的分佈狀況。目前我們仍繼續發展其它的分析模組, 以提供基因微陣列資料研究人員一個優良的分析工具為目標。

除了軟體上的開發, 我們也一直持續不繼地研讀相關的基因微陣列統計分析方法論及文獻, 了解當前學術界的發展現況。我們也利用切片逆迴歸法(SIR)的維度縮減於微陣列基因表現資料中的基因群集方法研究。特點是同時考慮微陣列資料具有高度雜訊及離群的特性,期望針對離群基因, 經由迭代的估計方式, 能有較穩定的分群結果。這方法在找出生物意義相關的基因群上有很大的幫助。另外,我們也考慮生物上的基因功能性(例如Gene Ontology, GO), 建立兩個以生物功能性為評量的模糊分群效度指標(稱為SBHI和SBSI),用來評量各種模糊群集法在生物功能類別上的齊一性及穩定性(Wu, 2011),提供生物學家選擇模糊群集法於基因微陣列資料分析的依據。

國內外各領域對基因體相關之生醫科學(Biomedical Science)及系統生物學(Systems Biology)的研究紛紛投注眾多的研究資源,各項生物醫學技術也持續的發展,而微陣列資料相關的統計分析研究也正方興未艾,我們期望所學及研究的成果能對基因體生物醫學的發展有所貢獻。

 

 資訊視覺化: 矩陣視覺化

資訊視覺化(Information Visualization)是一門結合統計與電腦計算的學問。其中,中研院統計所陳君厚老師於2002發展的廣義相關圖(generalized association plots, GAP) 是一個全矩陣式的資料視覺化方法。目的是利用群聚分析及適當的排序法來探索資料中個體或變數間隱藏的相關性。過去數年, 陳老師團隊以廣義相關圖, 類別性廣義相關圖等工具針對不同型態之矩陣進行矩陣視覺化之工作, 獲得良好的研究成果。這些新的矩陣視覺化方法, 以Java開發出一套互動式的軟體, 名為GAP (Wu, Tien and Chen, 2010), 目前已開放下載試用。

資料排序對於資料矩陣視覺化的結果有很大影響, 於是我們研究基因微陣列資料視覺化的最佳排序分群方法, 提出了橢圓排序導引階層分群樹(HCT-R2E) 的排序方法(Tien, Lee, Wu and Chen, 2008)。它可以同時對基因表現資料提供較一致的局部群集和較佳的全域群組狀態。然而和傳統的數理式的群集分析一樣, HCT-R2E僅利用到基因微陣列表現資料卻未考慮到把這些已知基因功能的屬性結合到分群演算裡。於是, 我們結合微陣列資料之基因所代表的生物知識, 計算一個新的距離尺度, 當作HCT-R2E 使用的距離尺度。新的距離尺度的採用可以同時獲得群集後基因表現的相似性與基因功能屬性的同一性。以結合生物知識為基礎的HCT-R2E 應用在酵母菌細胞週期和老鼠腦細胞這兩種微陣列資料, 我們發現結果不僅保存原本HCT-R2E 所具有的分群排序性質, 也同時提供更相關及有意義的生物註解資訊去幫助識別基因的功能屬性(Tsao and Wu, 2010)。

變項校正矩陣視覺化(Wu et al., 2010)是透過條件相關係數的計算, 針對資料中包含例如性別、年紀等共變項(covariate) , 想了解此共變項對兩兩個體/變數之間相關性影響所發展出來的一個資訊視覺化方法, 藉以擴展矩陣視覺化的架構。這個擴展性可以直接探索資料的條件相關結構, 是傳統矩陣視覺化法所無法做到的。我們針對離散型及連續型的共變項提出一統化的公式, 將相關係數矩陣分解成模型及殘差矩陣, 並發展一個z分數顯著圖, 用以了解變項校正前後, 哪些相關性已顯著改變。所提的方法也可運用在其它的基因體資料類型, 例如基因的功能屬性可當成一個變項, 用以探討此基因對分析修正前後的影響程度。我們也將運用此方法在研究變項對於預測轉錄因子結合位點的影響。而發展的方法也開發成GAP的一個分析模組。

矩陣式的視覺化環境可幫助我們在大量且高維度的資料中, 很快地發現資料的特別之處,例如是否有群性或離群值等。因為各種的資料矩陣與關係矩陣皆為矩陣視覺化之可能開發對象, 故未來的研究可以此為方向, 例如開發存活資料、時間序列資料等等的矩陣視覺化環境, 並且進一步將新的統計理論証明、演算法、模擬與實証研究的結果, 發展成新的視覺化工具加以呈現。最後進行論文的撰寫及電腦分析軟體的測試開發。除了統計理論的發展, 矩陣視覺化的應用也頗為廣泛, 尤其是後基因體時代的來臨, 大量且高維度的資料隨處可見, 如何分析及探討其中的資訊是統計學者一直努力的目標。因此如何應用或改善矩陣視覺化在生物資料上的資訊採擷(information mining) 能力, 提供生物資訊學家參考, 也是未來研究的方向。

 

 維度縮減: 切片逆迴歸法

切片逆迴歸法(SIR)為李克昭院士(中研院統計所, UCLA教授) 於1991 (JASA)年所提出,主要利用response y的資訊,可以找出有效的維度縮減方向來探索高維度資料的內在結構。

早期的研究中,我們應用SIR於動態醫學影像的分割問題(稱為DSIR),獲得比傳統方法有較良好的表現(Wu and Lu, 2004)。接著,我們針對靜態醫學影像及紋理影像的分割問題,以迭代的方式改進SIR 的演算法,獲得較精確及收斂的結果(Wu and Lu, 2007)。我們將發展一套Java 影像分割軟體(見Software),將最新的演算法,實作出來,未來可再加以精化成為一個專業的醫學影像分析軟體。

核化(kernelization) 方法在機器學習社群(machine learning) 的研究近年發展非常蓬勃。主要目的是透過"kernel trick”將線性方法推廣成非線性方法的一種技巧。我採用此方法, 核化SIR 的演算法(稱為KSIR),除了理論性質的証明之外, 我們將之應用於分類問題上。研究結果顯示,KSIR 在資料視覺化及區分能力的表現明顯優於傳統方法(Wu , 2008)。對於分類問題,KSIR是一個非常優良的非線性特徵擷取法。

針對單一反應變數迴歸問題的核化切片逆迴歸法已在Wu (2008) 及Yeh, Huang and Lee (2009) 中被提出與研究。目前我們進一步推展核化切片逆迴歸法到多變量反應變數迴歸問題, 我們稱此一非線性維度縮減方法為多變量核化切片逆迴歸法(mKSIR)。我們將以數個不同切片策略來實現mKSIR 並估計預測變數的非線性投影方向。這些策略包含: 完全切片法、邊際切片法、合併邊際切片法及以群集為基礎的切片法。除此, 我們將在再生核希氏空間(RKHS) 的架構中探討mKSIR 的理論根據並評估mKSIR 在區別能力、低維度視覺化和迴歸問題中的表現。應用方面, 我們將利用mKSIR 所找到的特徵向量在分類問題上並和其它現存的多變量維度縮減方法的結果相比較。同時, 我們也會討論mKSIR 和其它多變量統計方法, 例如核化典型相關分析(KCCA) 之間的關連性。

另外,有別於數值型資料(numeric data) 為研究主體, 我們目前的研究考慮符號資料(symbolic data)的切片逆迴歸法, 針對其在資料視覺化及分類問題上的優劣做一討論。根據文獻, 此方法可應用到生物符號資料的分析, 例如promoter的基因序列的辨識及splice接面的估計。

 

統計學習: 核機器、流形學習、非線性維度縮減

核化(kernelization)方法在機器學習社群(machine learning) 的研究近年非常蓬勃。以此技巧結合切片逆迴歸法(SIR),我們已發展出SIR的非線性的維度縮減法(Wu, 2008)。除了以"kernel trick”的方式將線性方法推廣成非線性方法之外,另一個熱門的方法是利用幾何測地線距離的逼近。我們一般使用Pearson相關係數或者歐式距離來量測兩兩變數(或物件)之間的相關(或距離)程度,但在真實世界中,相關性不一定是線性的,距離也不一定是歐式空間的直線距離。Tenenbaum 等人在2000年提出一個幾何上非線性維度縮減的演算法,稱作ISOMAP。透過最近鄰居(或最短路徑)的演算法,可以在幾何上有效截取隱藏在資料中具有非線性的manifold結構。我們則是針對非線性維度縮減問題, 提出利用幾何測地線距離逼近法的一個混合型切片逆迴歸法, 我們稱此方法為等軸距切片逆迴歸法(isoSIR)。所提的方法中, 第一步是先計算兩兩資料點等軸距距離, 然後根據群集分析(例如: 階層式群集分析) 或排序方法(例如: 秩二橢圓排序法) 在這個距離矩陣上的分群結果, 當成切片的依據, 使得傳統的切片逆迴歸演算法可以直接被應用。我們應用在微陣列基因表現資料的分類問題上, 可以得到較符合生物現象的解釋(Yao and Wu, 2013)。

 

 統計計算與程式軟體開發: R 和 Java

將所發展的統計演算法實作出一個可以互動的分析軟體, 對自己而言, 可以是一個成果累積, 對外可以開放讓使用者使用, 有助於新方法的推廣。目前這方面的研究是以資訊視覺化之統計理論為主, 以應用在基因體暨蛋白質體研究之分析為輔, 並將所提出的演算法及分析法開發成一個軟體。這樣的過程可培養獨立開發新研究議題的能力, 更能在與生物及醫學等科學領域結合之基因體統計有更多的研究成果。

我們已開發的一套視窗統計分析軟體, 命名為GAP。主要目的是提供使用者以全矩陣式的視覺化方法, 互動式地觀測資料的相關性結構及特性。我們開發了多種排序及分群方法, 例如: 橢圓排序,hierarchical clustering with external/internal flips, 和原始資料矩陣呈現條件, 具有許多目前市面上統計分析軟體所沒有的功能。以廣義相關圖為發展主軸, 我們亦針對數個重要的生物醫學資料形態進行結構分析, 以模組方式, 創造出適合各種資料形態之不同資訊視覺化環境, 以利未來選擇或發展合適之統計方法與合理之生物與數學假設, 為生物及醫學特徵資料提供一個多樣化之群集分析與資訊視覺化工作環境。目前此套軟體已開放下載試用, 並在一些學術研討會及教學中演示, 獲得許多迴響。

目前正在進行中的軟體開發是學生的碩士論文主題:「jSDRLib」, 一套以Java撰寫的充分維度縮法函式庫。引進的方法包含SIR, SAVE, pHd, IRE等等的充分維度縮法。並提供一個2D 及3D 的scatterplot viewer觀察維度縮減後的資料投影結構, 我們也將比較這些方法所得到的特徵向量在分類問題上的表現。除了軟體使用手冊的編寫之外, 也積極地撰寫軟體論文, 探討其設計架構及創新度等。