Publications-Theses

題名 以資料採礦的方法探索影響台灣地區女性戶長的原因
作者 李孟謙
LEE, MENG CHIEN
貢獻者 余清祥
李孟謙
LEE, MENG CHIEN
關鍵詞 女性戶長
攝謢腺癌
資料採礦
男女平權
分類
監督學習
householder
prostate cancer
data mining
equal right
classification
data learning
日期 2004
上傳時間 17-Sep-2009 18:45:12 (UTC+8)
摘要 「資料採礦」(Data Mining)為一種結合統計分析、資訊工程和各領域間專業知識的一種新興分析技術,例如:產業界的市場分析,金融界的財務分析,保險業的風險管理,生物科技界的疾病分析以及政府的人口統計,在各行各業使用資料採礦技術的人員日益增加。然而,正因資料採礦屬於新興發展的領域,仍有不少事項尚待開發,例如:不同型態的資料如何處理。本文即探討兩種不同型態的資料:資料量多、變數少以及資料量少、變數多兩種,以監督學習(Supervised Learning)和分類(Classification)的概念,分別對觀察值較多的2000年台灣地區戶口普查資料探討影響女性戶長的因素,而對變數較多的攝謢腺癌資料詮釋血清的病症類型,研究不同的類型資料可能的處理步驟。
本文主要的結論為:1.當資料量多時,引入抽樣的概念,資料採礦可利用抽樣將資料量縮減,減少處理時間,並且抽樣資料和全部資料在分類錯誤率的差異頗為相近,因此抽樣為一種可行的處理方式。以研究女性戶長為例,資料量最少的東部資料為抽樣代表,在不失分類準確性的前提下,抽樣3%資料的分析結果與使用整體資料的結果相差不多,達到合乎經濟效應。2.當資料量少時,引入變數縮減的想法,使用敘述性統計量和不均度的17個指標統計量,能替代全部變數進行分析,運用羅吉斯迴歸方法,分類錯誤率的結果在可接受範圍內,並且解決在傳統分析上自由度不夠的問題。以研究攝護腺癌症為例,在不損失太多分類正確性的原則下,將血清透過質譜儀所反映的強度,透過變數縮減的技巧提高分析效率;另外,縮減變數後自由度充足,傳統的統計方法可運用在攝護腺癌的資料上,使分析的工具有較廣泛的選擇。
參考文獻 (一)中文部份:
中華資料採礦協會。(http://cdms.sat.fju.edu.tw/)
中國人權協會(2002),台灣婦女人權指標調查報告。
內政部(2000),中華民國台閩地區人口統計。
台大婦女研究室。(http://www-ms.cc.ntu.edu.tw/%7Ewrp/)
民生報(2002),男女同工不同酬 女性重視升遷。
(http://www.jbjob.com.tw/word/html/word768.htm)
行政院主計處第三局九十年社會指標統計目錄。
(http://www.dgbas.gov.tw/dgbas03/bs2/91chy/catalog.htm)
林心如(1998),聯合國與女性人權,新世紀智庫論壇。(http://taiwan.yam.org.tw/womenweb/papers/united.htm)
法務部(2002) 民法親屬編夫妻財產制修正案立法院完成三讀,建立家庭中兩性地位平等的新里程碑。
(http://www.moj.gov.tw/more_news1.asp?y=91&m=6&num=11)
財團法人尹書田紀念醫院(http://www.shutien.org.tw/html/stuc62.htm)
陳彥良(2002)資料間隱含關係的挖掘與展望,資訊管理學報第九卷,專刊期,pp. 75-100。
陳美華(1999),社會運動團體與立法院的互動□婦女運動團體推動男女平權立法的經驗。(http://www.inpr.org.tw/inprc/recent/event6_4.htm)
異視市場資訊研究中心(2001),e世代女性權益調查公佈記者會。
(http://www.npf.org.tw/Symposium/s90/900904-SS.htm)
郭玲惠(1998),婦女新知,「婦女新知民法諮詢熱線年度報告」。
梁崇民(2002),自由電子新聞網,自由廣場。(http://www.libertytimes.com.tw/2002/new/jun/9/today-o1.htm)
許炯明(2002)中國時報。
(http://www.astrazeneca.com.tw/article.asp?channelid=C31&serial=204)
雅芳健康生活網。(http://wellness.avon.com.tw/health/h1-1.asp?index_no=10&cno=03)
張延驊 (2002) (http://www.astrazeneca.com.tw/article.asp?channelid=C31&serial=41)
劉毓秀(1995),婦女新知 還我財產權□女人釋憲行動II,第154期,12-13頁。
饒志堅(2002),由普查資料探討台灣兩性差異-以1990及2000年戶口普查資料為例,華人人口與社會經濟研究: 2000/2001年度人口普查資料分析研討會,香港。
(二)英文部份:
Alan, A. (1995), An Introduction to Categorical Data Analysis, Wiley Series in Probability and Statistics.
Burges, C. (1998), A Tutorial on Support Vector Machines for Pattern Recognition, Data Mining and Knowledge Discovery,2(2):955-974.
Chapelle, O., Vapnik, V., Bousquet, O., and Mukherjee, S. (2000), Choosing Kernel Parameters for Support Vector Machines, Technical Report, AT&T Labs.
Craven, M. W. and Shavlik, J. W. (1997), Using Neural Network for Data Mining, Future Generation Computer System, pp. 221-229.
David, W. H. and Stanley, L. (2000), Applied Logistic Regression, Wiley.
Han, J. and Kamber, M. (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, San Franscisco.
John, O. R., Sastry, G. P. and David, A. D.(1998), Applied Regression Analysis, Springer.
Jutten, C. and Chentouf, R. (1995), Neural Processing Letters, 2, 1, pp. 1-4.
Leo, B., Jerome, H. F., Richard, A. O. and Charles, J. S. (1984), Classification and Regression Tree, Wadsworth Statistic/Probability Series.
Nello, C. and John, S. T. (2000), An Introduction to Support Vector Machines and other Kernel-Based Method, Cambridge University Press.
Simoudis, E. (1996), Reality Check for Data Mining, IEEE Expert (11:10), 26-33.
Stephen, I. G. (1992), Neural Network Learning and Expert System. Cambridge, Mass.: MIT Press
Vapnik, V. (1995), The Nature of Statistical Learning Theory, Springer.
.
描述 碩士
國立政治大學
統計研究所
90354014
93
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0090354014
資料類型 thesis
dc.contributor.advisor 余清祥zh_TW
dc.contributor.author (Authors) 李孟謙zh_TW
dc.contributor.author (Authors) LEE, MENG CHIENen_US
dc.creator (作者) 李孟謙zh_TW
dc.creator (作者) LEE, MENG CHIENen_US
dc.date (日期) 2004en_US
dc.date.accessioned 17-Sep-2009 18:45:12 (UTC+8)-
dc.date.available 17-Sep-2009 18:45:12 (UTC+8)-
dc.date.issued (上傳時間) 17-Sep-2009 18:45:12 (UTC+8)-
dc.identifier (Other Identifiers) G0090354014en_US
dc.identifier.uri (URI) https://nccur.lib.nccu.edu.tw/handle/140.119/33896-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 統計研究所zh_TW
dc.description (描述) 90354014zh_TW
dc.description (描述) 93zh_TW
dc.description.abstract (摘要) 「資料採礦」(Data Mining)為一種結合統計分析、資訊工程和各領域間專業知識的一種新興分析技術,例如:產業界的市場分析,金融界的財務分析,保險業的風險管理,生物科技界的疾病分析以及政府的人口統計,在各行各業使用資料採礦技術的人員日益增加。然而,正因資料採礦屬於新興發展的領域,仍有不少事項尚待開發,例如:不同型態的資料如何處理。本文即探討兩種不同型態的資料:資料量多、變數少以及資料量少、變數多兩種,以監督學習(Supervised Learning)和分類(Classification)的概念,分別對觀察值較多的2000年台灣地區戶口普查資料探討影響女性戶長的因素,而對變數較多的攝謢腺癌資料詮釋血清的病症類型,研究不同的類型資料可能的處理步驟。
本文主要的結論為:1.當資料量多時,引入抽樣的概念,資料採礦可利用抽樣將資料量縮減,減少處理時間,並且抽樣資料和全部資料在分類錯誤率的差異頗為相近,因此抽樣為一種可行的處理方式。以研究女性戶長為例,資料量最少的東部資料為抽樣代表,在不失分類準確性的前提下,抽樣3%資料的分析結果與使用整體資料的結果相差不多,達到合乎經濟效應。2.當資料量少時,引入變數縮減的想法,使用敘述性統計量和不均度的17個指標統計量,能替代全部變數進行分析,運用羅吉斯迴歸方法,分類錯誤率的結果在可接受範圍內,並且解決在傳統分析上自由度不夠的問題。以研究攝護腺癌症為例,在不損失太多分類正確性的原則下,將血清透過質譜儀所反映的強度,透過變數縮減的技巧提高分析效率;另外,縮減變數後自由度充足,傳統的統計方法可運用在攝護腺癌的資料上,使分析的工具有較廣泛的選擇。
zh_TW
dc.description.tableofcontents 摘要……………………………………………………………………...1
第一章 前言…………………………………………………………...2
第二章 常用資料採礦的四種方法…………………………………...4
第三章 2000年台灣地區戶口普查資料的實證分析………………..9
第一節 普查資料研究動機………………………………………..…9
第二節 普查資料介紹……………………...………………………10
第三節 分析結果…………………..………………………………11
第四節 抽樣模擬分析………………………………………...……13
第五節 普查資料分析討論…………………………………………16
第四章 第四章為攝護腺癌症資料的實證分析……………………..18
第一節 普查資料研究動機…………………………………………18
第二節 普查資料介紹………………………………………..….…19
第三節 分析結果………………………………..………………....21
第四節 抽樣模擬分析………………………...……………………22
第五節 普查資料分析討論…………………………………………24
第五章 結論與未來研究方向………………………………………..26
第一節 結論…………………………………………………….....26
第二節 建議與為來研究方向…………………………….…………28
zh_TW
dc.format.extent 20705 bytes-
dc.format.extent 16965 bytes-
dc.format.extent 14831 bytes-
dc.format.extent 12110 bytes-
dc.format.extent 20788 bytes-
dc.format.extent 63022 bytes-
dc.format.extent 89907 bytes-
dc.format.extent 71998 bytes-
dc.format.extent 27291 bytes-
dc.format.extent 31001 bytes-
dc.format.extent 864503 bytes-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.language.iso en_US-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0090354014en_US
dc.subject (關鍵詞) 女性戶長zh_TW
dc.subject (關鍵詞) 攝謢腺癌zh_TW
dc.subject (關鍵詞) 資料採礦zh_TW
dc.subject (關鍵詞) 男女平權zh_TW
dc.subject (關鍵詞) 分類zh_TW
dc.subject (關鍵詞) 監督學習zh_TW
dc.subject (關鍵詞) householderen_US
dc.subject (關鍵詞) prostate canceren_US
dc.subject (關鍵詞) data miningen_US
dc.subject (關鍵詞) equal righten_US
dc.subject (關鍵詞) classificationen_US
dc.subject (關鍵詞) data learningen_US
dc.title (題名) 以資料採礦的方法探索影響台灣地區女性戶長的原因zh_TW
dc.type (資料類型) thesisen
dc.relation.reference (參考文獻) (一)中文部份:zh_TW
dc.relation.reference (參考文獻) 中華資料採礦協會。(http://cdms.sat.fju.edu.tw/)zh_TW
dc.relation.reference (參考文獻) 中國人權協會(2002),台灣婦女人權指標調查報告。zh_TW
dc.relation.reference (參考文獻) 內政部(2000),中華民國台閩地區人口統計。zh_TW
dc.relation.reference (參考文獻) 台大婦女研究室。(http://www-ms.cc.ntu.edu.tw/%7Ewrp/)zh_TW
dc.relation.reference (參考文獻) 民生報(2002),男女同工不同酬 女性重視升遷。zh_TW
dc.relation.reference (參考文獻) (http://www.jbjob.com.tw/word/html/word768.htm)zh_TW
dc.relation.reference (參考文獻) 行政院主計處第三局九十年社會指標統計目錄。zh_TW
dc.relation.reference (參考文獻) (http://www.dgbas.gov.tw/dgbas03/bs2/91chy/catalog.htm)zh_TW
dc.relation.reference (參考文獻) 林心如(1998),聯合國與女性人權,新世紀智庫論壇。(http://taiwan.yam.org.tw/womenweb/papers/united.htm)zh_TW
dc.relation.reference (參考文獻) 法務部(2002) 民法親屬編夫妻財產制修正案立法院完成三讀,建立家庭中兩性地位平等的新里程碑。zh_TW
dc.relation.reference (參考文獻) (http://www.moj.gov.tw/more_news1.asp?y=91&m=6&num=11)zh_TW
dc.relation.reference (參考文獻) 財團法人尹書田紀念醫院(http://www.shutien.org.tw/html/stuc62.htm)zh_TW
dc.relation.reference (參考文獻) 陳彥良(2002)資料間隱含關係的挖掘與展望,資訊管理學報第九卷,專刊期,pp. 75-100。zh_TW
dc.relation.reference (參考文獻) 陳美華(1999),社會運動團體與立法院的互動□婦女運動團體推動男女平權立法的經驗。(http://www.inpr.org.tw/inprc/recent/event6_4.htm)zh_TW
dc.relation.reference (參考文獻) 異視市場資訊研究中心(2001),e世代女性權益調查公佈記者會。zh_TW
dc.relation.reference (參考文獻) (http://www.npf.org.tw/Symposium/s90/900904-SS.htm)zh_TW
dc.relation.reference (參考文獻) 郭玲惠(1998),婦女新知,「婦女新知民法諮詢熱線年度報告」。zh_TW
dc.relation.reference (參考文獻) 梁崇民(2002),自由電子新聞網,自由廣場。(http://www.libertytimes.com.tw/2002/new/jun/9/today-o1.htm)zh_TW
dc.relation.reference (參考文獻) 許炯明(2002)中國時報。zh_TW
dc.relation.reference (參考文獻) (http://www.astrazeneca.com.tw/article.asp?channelid=C31&serial=204)zh_TW
dc.relation.reference (參考文獻) 雅芳健康生活網。(http://wellness.avon.com.tw/health/h1-1.asp?index_no=10&cno=03)zh_TW
dc.relation.reference (參考文獻) 張延驊 (2002) (http://www.astrazeneca.com.tw/article.asp?channelid=C31&serial=41)zh_TW
dc.relation.reference (參考文獻) 劉毓秀(1995),婦女新知 還我財產權□女人釋憲行動II,第154期,12-13頁。zh_TW
dc.relation.reference (參考文獻) 饒志堅(2002),由普查資料探討台灣兩性差異-以1990及2000年戶口普查資料為例,華人人口與社會經濟研究: 2000/2001年度人口普查資料分析研討會,香港。zh_TW
dc.relation.reference (參考文獻) (二)英文部份:zh_TW
dc.relation.reference (參考文獻) Alan, A. (1995), An Introduction to Categorical Data Analysis, Wiley Series in Probability and Statistics.zh_TW
dc.relation.reference (參考文獻) Burges, C. (1998), A Tutorial on Support Vector Machines for Pattern Recognition, Data Mining and Knowledge Discovery,2(2):955-974.zh_TW
dc.relation.reference (參考文獻) Chapelle, O., Vapnik, V., Bousquet, O., and Mukherjee, S. (2000), Choosing Kernel Parameters for Support Vector Machines, Technical Report, AT&T Labs.zh_TW
dc.relation.reference (參考文獻) Craven, M. W. and Shavlik, J. W. (1997), Using Neural Network for Data Mining, Future Generation Computer System, pp. 221-229.zh_TW
dc.relation.reference (參考文獻) David, W. H. and Stanley, L. (2000), Applied Logistic Regression, Wiley.zh_TW
dc.relation.reference (參考文獻) Han, J. and Kamber, M. (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, San Franscisco.zh_TW
dc.relation.reference (參考文獻) John, O. R., Sastry, G. P. and David, A. D.(1998), Applied Regression Analysis, Springer.zh_TW
dc.relation.reference (參考文獻) Jutten, C. and Chentouf, R. (1995), Neural Processing Letters, 2, 1, pp. 1-4.zh_TW
dc.relation.reference (參考文獻) Leo, B., Jerome, H. F., Richard, A. O. and Charles, J. S. (1984), Classification and Regression Tree, Wadsworth Statistic/Probability Series.zh_TW
dc.relation.reference (參考文獻) Nello, C. and John, S. T. (2000), An Introduction to Support Vector Machines and other Kernel-Based Method, Cambridge University Press.zh_TW
dc.relation.reference (參考文獻) Simoudis, E. (1996), Reality Check for Data Mining, IEEE Expert (11:10), 26-33.zh_TW
dc.relation.reference (參考文獻) Stephen, I. G. (1992), Neural Network Learning and Expert System. Cambridge, Mass.: MIT Presszh_TW
dc.relation.reference (參考文獻) Vapnik, V. (1995), The Nature of Statistical Learning Theory, Springer.zh_TW
dc.relation.reference (參考文獻) .zh_TW