Publications-Theses

題名 蛋白質質譜儀資料之峰偵測探討
On Peak Detection of Proteomic Mass Spectrum Data
作者 楊智凱
Yang,Zhi Kai
貢獻者 郭訓志
楊智凱
Yang,Zhi Kai
關鍵詞 介質輔助雷射脫附離子化/飛行時間質譜
事前處理
峰偵測
連續型小波轉換
訊號雜訊比
日期 2007
上傳時間 17-Sep-2009 18:49:25 (UTC+8)
摘要 介質輔助雷射脫附離子化/飛行時間質譜 (Matrix-assisted Laser Desorption Ionization/ Time-of-Flight –Mass Spectrum, MALDI-TOF-MS),是種屬於高維度的蛋白質質譜儀資料,主要是用來偵測蛋白質分子的表現,而這項技術的原理,是先將蛋白質與介質混合,再利用雷射將蛋白質分子打碎,分散出帶電荷的離子,接著運用離子飛行時間的偵測,最後掃描出質譜圖形,圖形上有兩個重要變數,分別為:質量電荷比(Mass to Charge Ratio, m/z)以及強度(Intensity),我們希望利用這些質譜資料,研究出臨床上癌症病人以及正常人的質譜資料差異,藉由找出質譜資料的生物標記,來作為判斷是否為癌症患者的依據。但是由於MALDI的技術上的限制,導致掃描出來的質譜資料往往存在著雜訊以及誤差,這時候,事前處理(Preprocessing)步驟,就顯的格外重要。生物學家認為,蛋白質質譜資料,其表現異常的蛋白質,會顯現在質譜圖的峰上面,因此在維度如此龐大的質譜資料中,如果將分析重點著重在這些峰上面,可以簡化我們事後的分析,因此在分析質譜資料的流程中,事前處理步驟的峰偵測,便成為了一個很重要的環節。Du, Kibbe以及Lin在2006年的文獻中提到,使用連續型小波轉換(Continuous Wavelet Transform, CWT)的方法來進行峰偵測,可以改善我們使用傳統峰偵測方法所產生的誤差,因此本文將CWT峰偵測方法,與傳統峰偵測方法,對已知峰正確位置的MALDI質譜資料進行分析,結果發現在不同訊號雜訊比(Signal to Noise Ratio, SNR)下,CWT峰偵測方法的敏感度(Sensitivity)都比傳統峰偵測方法來的高,且誤判率(False Discovery Rate, FDR)也都較傳統峰偵測方法低,因此就本文所使用的模擬資料,CWT峰偵測確實是一個較佳的峰偵測方法。
參考文獻 J. Morris, K. Coombes, J. Koomen, K. Baggerly, and R. Kobayashi. (2005a) Understanding the characteristics of mass spectrometry data through the use of simulation. Cancer Informatics , 1(1) 41-52.
J. Morris, K. Coombes, J. Koomen, K. Baggerly, and R. Kobayashi. (2005b) Feature extraction and quantification for mass spectrometry in biomedical applications using the mean spectrum. Bioinformatics, 21(9):1764–1775.
J. Prados, A. Kalousis, M. Hilario. (2006) On Preprocessing of SELDI-MS Data and its Evaluation. IEEE, CBMS: 953-958.
K. Coombes, S. Tsavachidis, J. Morris, K. Baggerly, M. C. Hung and H. M. Kuerer.(2005) Improved peak detection and quantification of mass spectrometry data acquired from surface-enhanced laser desorption and ionization by denoising spectra with the undecimated discrete wavelet transform. Proteomics, 5, 4107-4117.
L. Eva, G. Clemens, R. Knut, K. Oliver, and H. Andreas. (2006) High accuracy peakpicking of proteomics data using wavelet techniques. Biocomputing, 11, 243–254.
P. Du, W. A. Kibbe and S. M. Lin. (2006) Improved Peak Detection in Mass Spectrum by Incorporating Continuous Wavelet Transform-based Pattern Matching.
Bioinformatics, 22(17), 2059-2065.
P. H. Guzzi, T. Mazza, and G. Tradigo. (2005) Preprocessing of mass spectrometry proteomics data on the grid. IEEE, 18, 49–554.
R. Stolt, R. Torgrip, J. Lindberg, L. Csenki, J. Kolmert, I. S. Koistinen, and S. P. Jacobsson. (2006) Second-Order Peak Detection for Multicomponent High-Resolution LC/MS Data. Analytical Chemistry, 78(4), 975-983
Y. Pawitan, S. Michiels, S. Koscielny, A. Gusnanto, and A. Ploner. (2005) False discovery rate, sensitivity and sample size for microarray studies. Bioinformatics, 21(13), 3017-3024.
葉勝宗. (2006) An AUC Criterion Approach for Feature Selection on Classifying Proteomic Spectra Data, 政大統計碩士論文。
黃仁澤(2005) 對於高維度資料進行特徵選取-應用於分類蛋白質質譜儀資料,
政大統計碩士論文。
陳聰百(2006) Analysis of high-resolution protein mass spectra based on peak feature selection,中央大學統計碩士論文。
廖寶琦(2003) Matrix-assisted Laser Desorption Ionization, MALDI. 成大環境醫學碩士論文。
簡志清,潘茘錞,蔡志彥(2003) 蛋白質體學在臨床醫學之應用。化工資訊與商情, 第三期。
賴基銘(2004) SELDI血清蛋白指紋圖譜的應用。國家衛生研究所電子報,第52期。
描述 碩士
國立政治大學
統計研究所
94354024
96
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0943540241
資料類型 thesis
dc.contributor.advisor 郭訓志zh_TW
dc.contributor.author (Authors) 楊智凱zh_TW
dc.contributor.author (Authors) Yang,Zhi Kaien_US
dc.creator (作者) 楊智凱zh_TW
dc.creator (作者) Yang,Zhi Kaien_US
dc.date (日期) 2007en_US
dc.date.accessioned 17-Sep-2009 18:49:25 (UTC+8)-
dc.date.available 17-Sep-2009 18:49:25 (UTC+8)-
dc.date.issued (上傳時間) 17-Sep-2009 18:49:25 (UTC+8)-
dc.identifier (Other Identifiers) G0943540241en_US
dc.identifier.uri (URI) https://nccur.lib.nccu.edu.tw/handle/140.119/33925-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 統計研究所zh_TW
dc.description (描述) 94354024zh_TW
dc.description (描述) 96zh_TW
dc.description.abstract (摘要) 介質輔助雷射脫附離子化/飛行時間質譜 (Matrix-assisted Laser Desorption Ionization/ Time-of-Flight –Mass Spectrum, MALDI-TOF-MS),是種屬於高維度的蛋白質質譜儀資料,主要是用來偵測蛋白質分子的表現,而這項技術的原理,是先將蛋白質與介質混合,再利用雷射將蛋白質分子打碎,分散出帶電荷的離子,接著運用離子飛行時間的偵測,最後掃描出質譜圖形,圖形上有兩個重要變數,分別為:質量電荷比(Mass to Charge Ratio, m/z)以及強度(Intensity),我們希望利用這些質譜資料,研究出臨床上癌症病人以及正常人的質譜資料差異,藉由找出質譜資料的生物標記,來作為判斷是否為癌症患者的依據。但是由於MALDI的技術上的限制,導致掃描出來的質譜資料往往存在著雜訊以及誤差,這時候,事前處理(Preprocessing)步驟,就顯的格外重要。生物學家認為,蛋白質質譜資料,其表現異常的蛋白質,會顯現在質譜圖的峰上面,因此在維度如此龐大的質譜資料中,如果將分析重點著重在這些峰上面,可以簡化我們事後的分析,因此在分析質譜資料的流程中,事前處理步驟的峰偵測,便成為了一個很重要的環節。Du, Kibbe以及Lin在2006年的文獻中提到,使用連續型小波轉換(Continuous Wavelet Transform, CWT)的方法來進行峰偵測,可以改善我們使用傳統峰偵測方法所產生的誤差,因此本文將CWT峰偵測方法,與傳統峰偵測方法,對已知峰正確位置的MALDI質譜資料進行分析,結果發現在不同訊號雜訊比(Signal to Noise Ratio, SNR)下,CWT峰偵測方法的敏感度(Sensitivity)都比傳統峰偵測方法來的高,且誤判率(False Discovery Rate, FDR)也都較傳統峰偵測方法低,因此就本文所使用的模擬資料,CWT峰偵測確實是一個較佳的峰偵測方法。zh_TW
dc.description.tableofcontents 摘要 I
謝辭 II
1 緒論 1
2 資料介紹: 3
2.1 介質輔助雷射脫附游離/飛行時間質譜 (MALDI-TOF-MS) 3
2.2 表面增強雷射脫附游離/飛行時間質譜 (SELDI-TOF-MS) 6
2.3 模擬質譜資料 8
3 文獻回顧 9
4 峰偵測與事前處理方法 11
4.1 連續小波轉換的峰偵測方法 11
4.2 caMassClass 峰偵測方法 19
4.3 事前處理步驟 21
5 資料分析 23
5.1 峰偵測的應用 23
5.2 峰個數之比較 28
5.3 Sensitivity 與 False Discovery Rate 32
6 結論與討論 36
參考文獻 41
附錄 43
zh_TW
dc.format.extent 140820 bytes-
dc.format.extent 142212 bytes-
dc.format.extent 142435 bytes-
dc.format.extent 155962 bytes-
dc.format.extent 145865 bytes-
dc.format.extent 935412 bytes-
dc.format.extent 142932 bytes-
dc.format.extent 270975 bytes-
dc.format.extent 189528 bytes-
dc.format.extent 68635 bytes-
dc.format.extent 93626 bytes-
dc.format.extent 71384 bytes-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.language.iso en_US-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0943540241en_US
dc.subject (關鍵詞) 介質輔助雷射脫附離子化/飛行時間質譜zh_TW
dc.subject (關鍵詞) 事前處理zh_TW
dc.subject (關鍵詞) 峰偵測zh_TW
dc.subject (關鍵詞) 連續型小波轉換zh_TW
dc.subject (關鍵詞) 訊號雜訊比zh_TW
dc.title (題名) 蛋白質質譜儀資料之峰偵測探討zh_TW
dc.title (題名) On Peak Detection of Proteomic Mass Spectrum Dataen_US
dc.type (資料類型) thesisen
dc.relation.reference (參考文獻) J. Morris, K. Coombes, J. Koomen, K. Baggerly, and R. Kobayashi. (2005a) Understanding the characteristics of mass spectrometry data through the use of simulation. Cancer Informatics , 1(1) 41-52.zh_TW
dc.relation.reference (參考文獻) J. Morris, K. Coombes, J. Koomen, K. Baggerly, and R. Kobayashi. (2005b) Feature extraction and quantification for mass spectrometry in biomedical applications using the mean spectrum. Bioinformatics, 21(9):1764–1775.zh_TW
dc.relation.reference (參考文獻) J. Prados, A. Kalousis, M. Hilario. (2006) On Preprocessing of SELDI-MS Data and its Evaluation. IEEE, CBMS: 953-958.zh_TW
dc.relation.reference (參考文獻) K. Coombes, S. Tsavachidis, J. Morris, K. Baggerly, M. C. Hung and H. M. Kuerer.(2005) Improved peak detection and quantification of mass spectrometry data acquired from surface-enhanced laser desorption and ionization by denoising spectra with the undecimated discrete wavelet transform. Proteomics, 5, 4107-4117.zh_TW
dc.relation.reference (參考文獻) L. Eva, G. Clemens, R. Knut, K. Oliver, and H. Andreas. (2006) High accuracy peakpicking of proteomics data using wavelet techniques. Biocomputing, 11, 243–254.zh_TW
dc.relation.reference (參考文獻) P. Du, W. A. Kibbe and S. M. Lin. (2006) Improved Peak Detection in Mass Spectrum by Incorporating Continuous Wavelet Transform-based Pattern Matching.zh_TW
dc.relation.reference (參考文獻) Bioinformatics, 22(17), 2059-2065.zh_TW
dc.relation.reference (參考文獻) P. H. Guzzi, T. Mazza, and G. Tradigo. (2005) Preprocessing of mass spectrometry proteomics data on the grid. IEEE, 18, 49–554.zh_TW
dc.relation.reference (參考文獻) R. Stolt, R. Torgrip, J. Lindberg, L. Csenki, J. Kolmert, I. S. Koistinen, and S. P. Jacobsson. (2006) Second-Order Peak Detection for Multicomponent High-Resolution LC/MS Data. Analytical Chemistry, 78(4), 975-983zh_TW
dc.relation.reference (參考文獻) Y. Pawitan, S. Michiels, S. Koscielny, A. Gusnanto, and A. Ploner. (2005) False discovery rate, sensitivity and sample size for microarray studies. Bioinformatics, 21(13), 3017-3024.zh_TW
dc.relation.reference (參考文獻) 葉勝宗. (2006) An AUC Criterion Approach for Feature Selection on Classifying Proteomic Spectra Data, 政大統計碩士論文。zh_TW
dc.relation.reference (參考文獻) 黃仁澤(2005) 對於高維度資料進行特徵選取-應用於分類蛋白質質譜儀資料,zh_TW
dc.relation.reference (參考文獻) 政大統計碩士論文。zh_TW
dc.relation.reference (參考文獻) 陳聰百(2006) Analysis of high-resolution protein mass spectra based on peak feature selection,中央大學統計碩士論文。zh_TW
dc.relation.reference (參考文獻) 廖寶琦(2003) Matrix-assisted Laser Desorption Ionization, MALDI. 成大環境醫學碩士論文。zh_TW
dc.relation.reference (參考文獻) 簡志清,潘茘錞,蔡志彥(2003) 蛋白質體學在臨床醫學之應用。化工資訊與商情, 第三期。zh_TW
dc.relation.reference (參考文獻) 賴基銘(2004) SELDI血清蛋白指紋圖譜的應用。國家衛生研究所電子報,第52期。zh_TW