Publications-Theses

Article View/Open

Publication Export

Google ScholarTM

NCCU Library

Citation Infomation

Related Publications in TAIR

題名 線性維度縮減應用質譜儀資料之研究
作者 陳柏宇
貢獻者 余清祥
陳柏宇
關鍵詞 線性維度縮減
蛋白質質譜儀資料
PCA
SIR
Meta Analysis
日期 2007
上傳時間 6-May-2016 16:35:54 (UTC+8)
摘要 近年來電腦科技進步、資料庫健全發展,使得處理大量資料的需求增加,因而發展出結合生物醫學與資訊統計兩大領域的生物資訊(Bio-informative)。這個新學門的特色在於資料量及資料變數的龐雜,但過多資料經常干擾資訊的篩選,甚至癱瘓資料分析,因此如何適當地縮減資料(Data Reduction)就變得必要。資料縮減常藉由維度縮減(Dimension Reduction)進行,其中常見的線性維度縮減方法首推主成份分析,屬於非監督式學習(Unsupervised Learning)的一種,而線性的監督式學習(Supervised Learning)方法則有SIR(Sliced Inverse Regression)、SAVE(Sliced Average Variance Estimate)及pHd(Principal Hessian Directions)。非監督式學習的主成份分析,主要在找出少數幾個維度而可以解釋代表自變數的變異程度,而監督式學習的SIR、SAVE及pHd則可以在縮減維度時,同時考量自變數跟應變數之間的關係,而找出可以解釋應變數的維度。
     本研究為解決蛋白質質譜儀資料高維度的問題,將應用各種線性維度縮減方法,並分別使用CART(Classification and Regression Tree)、KNN(K-Nearest Neighbor)、SVM(Support Vector Machine)、ANN(Artificial Neural Network)四種分類器,比較各維度縮減方法的分錯率高低,以交叉驗證(Cross Validation)比較維度縮減方法的優劣。研究發現在四種維度縮減方法中,PCA及SIR在各種分類器下都有較為穩定的分錯率,表現較為一致,但SAVE及pHd較不理想。我們也發現在不同的分類器下,PCA跟SIR兩者有不同表現,正確率較高的分類器(SVM與ANN)與PCA結合,而正確率較低的分類器(CART與KNN)與SIR結合,會有較佳的結果。另外,我們也嘗試整合分析(Meta Analysis),綜合幾種線性維度縮減方法,而提出邊際訓練效果法(Marginal Training Effect Method)與加權整合法(Meta Weighted Method),其中發現邊際訓練效果法若可以挑選出有效的維度,可以在不同分類器下提高整體模型,而加權整合法則確保在不同分類器下,讓其分類模型具有較為穩定的準確率;並提出相關係數重疊法(Overlap Correlation Method)來解決需要決定維度大小的問題。
參考文獻 英文部分
     Alpaydin, E. (2004), “Introduction to Machine Learning”, MIT Press.
     Breiman, L. (1996). "Bagging predictors." Machine Learning 24, 123-140.
     Cook, R. D. and Weisberg, S. (1991). "Sliced Inverse Regression for Dimension Reduction: Comment." Journal of the American Statistical Association 86(414): 328-332.
     Cortes, C. and Vapnik, V. (1995)." Support-vector network." Machine Learning 20: 273–297.
     Dietterich, T. G.. (2002). "Ensemble Learning." MIT Press.
     Freund, Y. and Schapire, R. E. (1996). "Experiments with a new boosting algorithm." In Proc. 13th International Conference on Machine Learning: 148-156.
     Freund, Y. and Schapire, R. E. (1997). "A decision-theoretic generalization of on-line learning and an application to boosting." Journal of Computer and System Sciences 55(1):119-139.
     Hastie, T. J., and Tibshirani, R. J. (1990). "Generalized additive models." London: Chapman and Hall.
     Li, K. C. (1991). "Sliced Inverse Regression for Dimension Reduction." Journal of the American Statistical Association 86(414): 316-327.
     Li, K. C. (1991). "Sliced Inverse Regression for Dimension Reduction " Journal of the American Statistical Association 86(414): 316-327.
     Li, K. C. (1992). "On Principal Hessian Directions for Data Visualization and Dimension Reduction: Another Application of Stein`s Lemma." Journal of the American Statistical Association 87(420): 1025-1039.
     Li, K. C. (1992). "On Principle Hession Directions for Data Visualization and Dimension Reduction: Another Application of Stein`s Lemma." Journal of the American Statistical Association 87(420): 1025-1039.
     Osuna, E., Freund, R. and Girosi, F. (1997), “Training Support Vector Machines: An Application to Face Detection”, In Proceedings of CVPR’97, pages 130–136,
     New York, NY, 1997. IEEE.
     Sauve, A. C. and Speed, T. P. (2004), “Normalization, Baseline Correction and Alignment of High-Throughput Mass Spectrometry Data” In Proceedings of the Genomic Signal Processing and Statistics, 2004.
     Zou, H. and Yang, Y. (2004). "Combining time series model for forescating." International Journal of Forecasting 20 (2004): 69-84
     
     中文部分
     方悟原(1999),「SIR、SAVE、SIR-II、pHd等四種維度縮減方法之比較探討」,國立政治大學統計學系研究所碩士論文,指導教授:江振東博士。
     牛頓雜誌編輯部(2003.03),「孜孜不倦地實驗,也會找到新發現;訪問日本島津
     製作所田中耕一研究員」。牛頓雜誌國際中文版,第235期。
     牛頓雜誌編輯部(2003.10),「我的新挑戰!訪問日本島津製作所田中耕一紀念質量分析研究所」。牛頓雜誌國際中文版,第242期。
     周鵬程(2004),「類神經網路入門」。台北市:全華圖書,第二版。
     陳順宇(2004),「多變量分析」。台北市:華泰書局,第3版。
     徐竣建(2006),「重疊法應用於蛋白質質譜儀資料」,國立政治大學統計學系研究所碩士論文,指導教授:余清祥博士。
     張斐章、張麗秋、黃浩倫(2004),「類神經網路理論與實務」。台北市:東華書局。
     黃靜文(2005),「維度縮減應用於蛋白質質譜儀資料」,國立政治大學統計學系研究所碩士論文,指導教授:余清祥博士。
     賴基銘(2004.06.25),「癌症篩檢未來的展望:SELDI 血清蛋白指紋圖譜的應用」,國家衛生研究院電子報,第52期。
描述 碩士
國立政治大學
統計學系
94354002
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0094354002
資料類型 thesis
dc.contributor.advisor 余清祥zh_TW
dc.contributor.author (Authors) 陳柏宇zh_TW
dc.creator (作者) 陳柏宇zh_TW
dc.date (日期) 2007en_US
dc.date.accessioned 6-May-2016 16:35:54 (UTC+8)-
dc.date.available 6-May-2016 16:35:54 (UTC+8)-
dc.date.issued (上傳時間) 6-May-2016 16:35:54 (UTC+8)-
dc.identifier (Other Identifiers) G0094354002en_US
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/94411-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 統計學系zh_TW
dc.description (描述) 94354002zh_TW
dc.description.abstract (摘要) 近年來電腦科技進步、資料庫健全發展,使得處理大量資料的需求增加,因而發展出結合生物醫學與資訊統計兩大領域的生物資訊(Bio-informative)。這個新學門的特色在於資料量及資料變數的龐雜,但過多資料經常干擾資訊的篩選,甚至癱瘓資料分析,因此如何適當地縮減資料(Data Reduction)就變得必要。資料縮減常藉由維度縮減(Dimension Reduction)進行,其中常見的線性維度縮減方法首推主成份分析,屬於非監督式學習(Unsupervised Learning)的一種,而線性的監督式學習(Supervised Learning)方法則有SIR(Sliced Inverse Regression)、SAVE(Sliced Average Variance Estimate)及pHd(Principal Hessian Directions)。非監督式學習的主成份分析,主要在找出少數幾個維度而可以解釋代表自變數的變異程度,而監督式學習的SIR、SAVE及pHd則可以在縮減維度時,同時考量自變數跟應變數之間的關係,而找出可以解釋應變數的維度。
     本研究為解決蛋白質質譜儀資料高維度的問題,將應用各種線性維度縮減方法,並分別使用CART(Classification and Regression Tree)、KNN(K-Nearest Neighbor)、SVM(Support Vector Machine)、ANN(Artificial Neural Network)四種分類器,比較各維度縮減方法的分錯率高低,以交叉驗證(Cross Validation)比較維度縮減方法的優劣。研究發現在四種維度縮減方法中,PCA及SIR在各種分類器下都有較為穩定的分錯率,表現較為一致,但SAVE及pHd較不理想。我們也發現在不同的分類器下,PCA跟SIR兩者有不同表現,正確率較高的分類器(SVM與ANN)與PCA結合,而正確率較低的分類器(CART與KNN)與SIR結合,會有較佳的結果。另外,我們也嘗試整合分析(Meta Analysis),綜合幾種線性維度縮減方法,而提出邊際訓練效果法(Marginal Training Effect Method)與加權整合法(Meta Weighted Method),其中發現邊際訓練效果法若可以挑選出有效的維度,可以在不同分類器下提高整體模型,而加權整合法則確保在不同分類器下,讓其分類模型具有較為穩定的準確率;並提出相關係數重疊法(Overlap Correlation Method)來解決需要決定維度大小的問題。
zh_TW
dc.description.tableofcontents 第壹章 緒論 1
     第一節 研究背景及動機 1
     第二節 資料來源與簡介 2
     第三節 研究目的 7
     第四節 研究架構 7
     第貳章 研究方法 9
     第一節 線性維度縮減方法 9
     第二節 分類器方法 18
     第參章 實例分析 27
     第一節 攝護腺癌事前處理資料 27
     第二節 攝護腺癌原始資料 36
     第三節 頭頸癌原始資料 41
     第肆章 整合分析 43
     第一節 整合法 43
     第二節 邊際訓練效果法 46
     第三節 加權整合法 52
     第四節 相關係數重疊法 55
     第伍章 結論與建議 58
     第一節 結論 58
     第二節 建議 60
     參考文獻 61
     附錄 64
     
     
     圖目錄
     圖1- 1 SELDI-TOF-MS技術 3
     圖2- 1 對稱型函數 14
     圖2- 2 線性可分割之超平面(徐竣建,2006) 20
     圖2- 3 類神經網路神經元 24
     圖2- 4 類神經網路三大架構 24
     圖2- 5 倒傳遞類神經網路 25
     圖3- 1 各維度縮減方法使用CART分類器下,訓練資料的表現(人工處理資料) 28
     圖3- 2 各維度縮減方法使用CART分類器下,測試資料的表現(人工處理資料) 29
     圖3- 3 各維度縮減方法使用CART分類器下,測試資料的表現(人工處理資料) 30
     圖3- 4 各維度縮減方法使用CART分類器下,四分類的表現(人工處理資料) 30
     圖3- 5 各維度縮減方法使用5NN分類器下,測試資料的表現(人工處理資料) 31
     圖3- 6 各維度縮減方法使用SVM分類器下,訓練資料的表現(人工處理資料) 32
     圖3- 7 各維度縮減方法使用SVM分類器下,測試資料的表現(人工處理資料) 33
     圖3- 8 各維度縮減方法使用SVM分類器下,測試資料的表現(人工處理資料) 33
     圖3- 9 各維度縮減方法使用SVM分類器下,四分類的表現(人工處理資料) 34
     圖3- 10 各維度縮減方法使用ANN分類器下,測試資料的表現(人工處理資料) 35
     圖3- 11 各維度縮減方法的維度個數與特徵值比例圖形(人工處理資料) 36
     圖3- 12 各維度縮減方法使用CART分類器下,訓練資料的表現(原始資料) 37
     圖3- 13 各維度縮減方法使用CART分類器下,測試資料的表現(原始資料) 38
     圖3- 14 各維度縮減方法使用CART分類器下,四分類的表現(原始資料) 38
     圖3- 15 各維度縮減方法使用SVM分類器下,測試資料的表現(原始資料) 39
     圖3- 16 各維度縮減方法使用SVM分類器下,測試資料的表現(原始資料) 40
     圖3- 17 各維度縮減方法使用SVM分類器下,四分類的表現(原始資料) 41
     圖3- 18 各維度縮減方法使用CART分類器下的表現(頭頸癌原始資料) 42
     圖3- 19 各維度縮減方法使用SVM分類器下的表現(頭頸癌原始資料) 42
     圖4- 1 整合法使用CART分類器下,測試資料的表現 44
     圖4- 2 整合法使用SVM分類器下,測試資料的表現 45
     圖4- 3 邊際訓練效果法使用CART分類器下,測試資料的表現 48
     圖4- 4 穩定邊際訓練效果法使用CART分類器下,測試資料的表現 49
     圖4- 5 邊際訓練效果法使用SVM分類器下,測試資料的表現 50
     圖4- 6 穩定邊際訓練效果法使用SVM分類器下,測試資料的表現 51
     圖4- 7 損失函數圖形 53
     圖4- 8 加權整合法使用CART分類器下,測試資料的表現 54
     圖4- 9 加權整合法使用SVM分類器下,測試資料的表現 55
     圖4- 10 各維度縮減方法使用SVM分類器下相關係數的表現(人工處理資料) 56
     圖4- 11 相關係數重疊法套用各種方法下的表現 57
     
     表目錄
     表1- 1 攝護腺癌蛋白質質譜儀原始資料 4
     表1- 2 攝護腺癌蛋白質質譜儀事前處理資料 6
     表1- 3 攝護腺癌質譜儀資料受測者與樣本個數 6
     表1- 4 頭頸癌質譜儀資料受測者與樣本個數 7
     表2- 1 各維度縮減方法間的異同 18
     表2- 2 事前處理資料中,正常人與癌症末期分類 25
     表2- 3 分類器參數設定 26
     表4- 1 相關係數重疊法計算相關係數方式 56
zh_TW
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0094354002en_US
dc.subject (關鍵詞) 線性維度縮減zh_TW
dc.subject (關鍵詞) 蛋白質質譜儀資料zh_TW
dc.subject (關鍵詞) PCAzh_TW
dc.subject (關鍵詞) SIRzh_TW
dc.subject (關鍵詞) Meta Analysiszh_TW
dc.title (題名) 線性維度縮減應用質譜儀資料之研究zh_TW
dc.type (資料類型) thesisen_US
dc.relation.reference (參考文獻) 英文部分
     Alpaydin, E. (2004), “Introduction to Machine Learning”, MIT Press.
     Breiman, L. (1996). "Bagging predictors." Machine Learning 24, 123-140.
     Cook, R. D. and Weisberg, S. (1991). "Sliced Inverse Regression for Dimension Reduction: Comment." Journal of the American Statistical Association 86(414): 328-332.
     Cortes, C. and Vapnik, V. (1995)." Support-vector network." Machine Learning 20: 273–297.
     Dietterich, T. G.. (2002). "Ensemble Learning." MIT Press.
     Freund, Y. and Schapire, R. E. (1996). "Experiments with a new boosting algorithm." In Proc. 13th International Conference on Machine Learning: 148-156.
     Freund, Y. and Schapire, R. E. (1997). "A decision-theoretic generalization of on-line learning and an application to boosting." Journal of Computer and System Sciences 55(1):119-139.
     Hastie, T. J., and Tibshirani, R. J. (1990). "Generalized additive models." London: Chapman and Hall.
     Li, K. C. (1991). "Sliced Inverse Regression for Dimension Reduction." Journal of the American Statistical Association 86(414): 316-327.
     Li, K. C. (1991). "Sliced Inverse Regression for Dimension Reduction " Journal of the American Statistical Association 86(414): 316-327.
     Li, K. C. (1992). "On Principal Hessian Directions for Data Visualization and Dimension Reduction: Another Application of Stein`s Lemma." Journal of the American Statistical Association 87(420): 1025-1039.
     Li, K. C. (1992). "On Principle Hession Directions for Data Visualization and Dimension Reduction: Another Application of Stein`s Lemma." Journal of the American Statistical Association 87(420): 1025-1039.
     Osuna, E., Freund, R. and Girosi, F. (1997), “Training Support Vector Machines: An Application to Face Detection”, In Proceedings of CVPR’97, pages 130–136,
     New York, NY, 1997. IEEE.
     Sauve, A. C. and Speed, T. P. (2004), “Normalization, Baseline Correction and Alignment of High-Throughput Mass Spectrometry Data” In Proceedings of the Genomic Signal Processing and Statistics, 2004.
     Zou, H. and Yang, Y. (2004). "Combining time series model for forescating." International Journal of Forecasting 20 (2004): 69-84
     
     中文部分
     方悟原(1999),「SIR、SAVE、SIR-II、pHd等四種維度縮減方法之比較探討」,國立政治大學統計學系研究所碩士論文,指導教授:江振東博士。
     牛頓雜誌編輯部(2003.03),「孜孜不倦地實驗,也會找到新發現;訪問日本島津
     製作所田中耕一研究員」。牛頓雜誌國際中文版,第235期。
     牛頓雜誌編輯部(2003.10),「我的新挑戰!訪問日本島津製作所田中耕一紀念質量分析研究所」。牛頓雜誌國際中文版,第242期。
     周鵬程(2004),「類神經網路入門」。台北市:全華圖書,第二版。
     陳順宇(2004),「多變量分析」。台北市:華泰書局,第3版。
     徐竣建(2006),「重疊法應用於蛋白質質譜儀資料」,國立政治大學統計學系研究所碩士論文,指導教授:余清祥博士。
     張斐章、張麗秋、黃浩倫(2004),「類神經網路理論與實務」。台北市:東華書局。
     黃靜文(2005),「維度縮減應用於蛋白質質譜儀資料」,國立政治大學統計學系研究所碩士論文,指導教授:余清祥博士。
     賴基銘(2004.06.25),「癌症篩檢未來的展望:SELDI 血清蛋白指紋圖譜的應用」,國家衛生研究院電子報,第52期。
zh_TW