學術產出-Theses

Article View/Open

Publication Export

Google ScholarTM

政大圖書館

Citation Infomation

  • No doi shows Citation Infomation
題名 以資料採礦技術分析大台北地區保單貸款
作者 李珮榕
貢獻者 鄭宇庭
李珮榕
關鍵詞 資料採礦
保單貸款
類神經網路
CART
C4.5
日期 2002
上傳時間 2009-09-14
摘要 摘要
     本研究是利用某保險公司在大台北地區的壽險保單資料,進行知識發現過程。常見的資料採礦技術為類神經網路模型、CART及C4.5,利用這三種模型,來探討保單貸款行為模式。在抽樣過程中,藉由改變抽樣方法、樣本數大小及樣本中有貸款保單的比例,來選擇樣本的結構,並討論不同的樣本結構對模型的影響。研究過程中,也討論了連續變數轉換與否對各個模型的影響。
     結果發現樣本中有貸款保單的比例對於模型的影響較大,而樣本數及抽樣方法對模型的影響都會隨著有貸款保單的比例不同而不同,每種模型適用的樣本結構並不一致。
     連續變數的影響中,類神經網路受到連續變數轉換的影響較大,研究結果發現轉換連續變數可以使得類神經網路模型結果較好;對於CART或C4.5模型,受到連續變數轉換的影響小,CART模型連續變數轉換前後結果不變,而C4.5受連續變數影響在不同樣本結構並不一致,但改變量都很小。
     從模型結果來看影響保單是否有貸款的變數,在類神經網路模型的靈敏度分析結果中,對模型影響較大的變數為體位別、被保人職業別級數、保險型態及地區;在CART模型結果中,影響較大的變數為繳別、保單年度、保單價值金、繳費方式及投保面額;在C4.5模型結果中,影響較大的變數為主約保單預定利率、年繳化保費、保單年度及繳別。對於CART、C4.5模型,選擇有較高正確率的規則,以提供保險公司決策方針。
In this study, data mining is being applied on data taken from one of the life insurance company in Taipei. The techniques used are neural network, CART and C4.5 which are widely used models in data mining. In the process of acquiring samples, we comprised groups of samples by using different kind of sampling methods, different sample sizes, different ratios of loaned to un-loaned policies. In addition another groups of samples are created based on whether the continuous variables have been transformed. We then applied the three models into each of our various samples combinations to see which samples combination best described consumer behaviors with respect to their borrowing attitudes against their policies and its effects on different data mining models.
     The results we found based on our study are summarized as following:
     1. The assigned ratios have great influences on the model. However the magnitude of influences of sampling method and sample size on the model depends largely on the sample combination.
     2. The sample combinations having transformed continuous variables affect and improve the results of neural network model significantly. However for CART model, the affects are insignificant whether the continuous variables having been transformed or not. The effect of transformed continuous variables on C4.5 is of limited.
     3. The variables used to describe the behavior of the consumers as to taking the loan against the insurance policy vary for the three models.
參考文獻 參考文獻
Berry, M. J. A., and Linoff, G. S. (1997), Data Mining Techniques: for Marketing, Sales, and Customer Support. John Wiley & Sons Inc, New York.
Berry, M. J. A., and Linoff, G. S. (2000), Mastering Data Mining Techniques, The Art & Science of Customer Relationship Management. John Wiley & Sons Inc., New York.
Breiman, L. Friedman, J.H., Olshen, R. A., and Stone, C. J. (1984).. Classification and Regression Trees. Wadsworth, Pacific Grove, California.
Dunham, M. H. (2003), Data Mining: Introductory and Advanced Topics. Pearson Education Inc., Upper Saddle River, New Jersey.
Freund, Y., and Schapire, R. E. (1996), “Experiments with a New Boosting Algorithm”. Machine Learning: Proceedings of the Thirteenth International Conference.
Friedman, J., Hastie, T., and Tibshirani R. (1998), Additive Logistic Regression: a Statistical View of Boosting,
Smith, M. (1993), Neural Networks for Statistical Modeling. Van Norstrand Reinhold, New York.
Terano, T., Liu, H., and Chen, A. L. P. (2000), Knowledge Discovery and Data Mining: Current Issues and New Applications. Springer-Verlag, Berling, Germany.
Witten, I. H., and Eibe, F. (2000), Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann Publishers, San Francisco, California.
中國科學技術大學生物醫學工程跨係委員會,神經網路及其應用,儒林圖書,1993。
江世傑,模糊類神經網路在消費性貸款之應用,國立成功大學工業管理學系碩士論文,2001。
呂奇傑,演化式類神經網路分類技術於資料探勘上之應用,輔仁大學應用統計研究所碩士論文,2001。
邱蔚群,資料採礦技術在保險公司客戶保單貸款行為研究的應用,國立政治大學統計學系碩士論文,2003。
張金華,適用於資料挖掘的屬性挑選與快速k-means組群化演算法,逢甲大學資訊工程學系碩士論文,2000。
張維哲,人工神經網路,全欣資訊圖書,1992。
陳智宏,應用類神經網路於電力系統負載之溫度敏感度分析,國立中山大學電機工程學系研究所碩士論文,2002。
黃國源,類神經網路與圖形辨識,維科,2000。
葉怡成,類神經網路模式應用與實作(第7版),儒林圖書公司,台北市,2000。
傅心家,神經網路導論,第三波,1991。
彭慧雯,建構信用卡資料挖礦架構及其實證研究,國立台北科技大學生產系統工程與管理研究所碩士論文,2001。
楊雅媛,迴歸分析與類神經網路預測能力之比較,國立政治大學統計學系碩士論文,2002。
蔡宗憲,短期列車旅運需求預測~類神經網路模式之應用,國立成功大學交通管理學系碩士論文,2001。
蔡智政,應用CART決策樹與資料視覺技術於低良率晶圓成因探討,元智大學工業工程與管理學系碩士論文,2002。
趙士儀,以主成份分析法處理定量資料缺失值問題,元智大學資訊管理研究所碩士論文,2000。
劉黛君,線性鑑別分析、邏吉斯迴歸及分類和迴歸樹之比較,國立台北大學統計學系碩士論文,2001。
鄭忠樑,運用分類樹於股價報酬率預測之研究,元智大學資訊管理學系研究所碩士論文,2002。
賴信良,資料挖掘在教育上的應用-以國小學童「體適能測驗」為例,國立台北師範學院數理教育研究所碩士論文,2002。
謝邦昌,資料採礦入門及應用-從統計技術看資料採礦,2001。
描述 碩士
國立政治大學
統計研究所
90354003
91
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0090354003
資料類型 thesis
dc.contributor.advisor 鄭宇庭zh_TW
dc.contributor.author (Authors) 李珮榕zh_TW
dc.creator (作者) 李珮榕zh_TW
dc.date (日期) 2002en_US
dc.date.accessioned 2009-09-14-
dc.date.available 2009-09-14-
dc.date.issued (上傳時間) 2009-09-14-
dc.identifier (Other Identifiers) G0090354003en_US
dc.identifier.uri (URI) https://nccur.lib.nccu.edu.tw/handle/140.119/30871-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 統計研究所zh_TW
dc.description (描述) 90354003zh_TW
dc.description (描述) 91zh_TW
dc.description.abstract (摘要) 摘要
     本研究是利用某保險公司在大台北地區的壽險保單資料,進行知識發現過程。常見的資料採礦技術為類神經網路模型、CART及C4.5,利用這三種模型,來探討保單貸款行為模式。在抽樣過程中,藉由改變抽樣方法、樣本數大小及樣本中有貸款保單的比例,來選擇樣本的結構,並討論不同的樣本結構對模型的影響。研究過程中,也討論了連續變數轉換與否對各個模型的影響。
     結果發現樣本中有貸款保單的比例對於模型的影響較大,而樣本數及抽樣方法對模型的影響都會隨著有貸款保單的比例不同而不同,每種模型適用的樣本結構並不一致。
     連續變數的影響中,類神經網路受到連續變數轉換的影響較大,研究結果發現轉換連續變數可以使得類神經網路模型結果較好;對於CART或C4.5模型,受到連續變數轉換的影響小,CART模型連續變數轉換前後結果不變,而C4.5受連續變數影響在不同樣本結構並不一致,但改變量都很小。
     從模型結果來看影響保單是否有貸款的變數,在類神經網路模型的靈敏度分析結果中,對模型影響較大的變數為體位別、被保人職業別級數、保險型態及地區;在CART模型結果中,影響較大的變數為繳別、保單年度、保單價值金、繳費方式及投保面額;在C4.5模型結果中,影響較大的變數為主約保單預定利率、年繳化保費、保單年度及繳別。對於CART、C4.5模型,選擇有較高正確率的規則,以提供保險公司決策方針。
zh_TW
dc.description.abstract (摘要) In this study, data mining is being applied on data taken from one of the life insurance company in Taipei. The techniques used are neural network, CART and C4.5 which are widely used models in data mining. In the process of acquiring samples, we comprised groups of samples by using different kind of sampling methods, different sample sizes, different ratios of loaned to un-loaned policies. In addition another groups of samples are created based on whether the continuous variables have been transformed. We then applied the three models into each of our various samples combinations to see which samples combination best described consumer behaviors with respect to their borrowing attitudes against their policies and its effects on different data mining models.
     The results we found based on our study are summarized as following:
     1. The assigned ratios have great influences on the model. However the magnitude of influences of sampling method and sample size on the model depends largely on the sample combination.
     2. The sample combinations having transformed continuous variables affect and improve the results of neural network model significantly. However for CART model, the affects are insignificant whether the continuous variables having been transformed or not. The effect of transformed continuous variables on C4.5 is of limited.
     3. The variables used to describe the behavior of the consumers as to taking the loan against the insurance policy vary for the three models.
en_US
dc.description.tableofcontents 目錄
     第一章 緒論 1
     第一節 研究動機與目的 1
     第二節 流程圖 3
     第二章 文獻探討 4
     第一節 資料採礦(data mining) 4
     第二節 類神經網路(neural network) 10
     第三節 決策樹(decision tree) 22
     第四節 軟體介紹 31
     第三章 研究過程 33
     第一節 資料介紹 33
     第二節 資料清理 38
     第三節 抽樣過程 41
     第四節 模型建立 45
     第四章 分析結果 48
     第一節 利率調整前後的比較 48
     第二節 資料的敘述統計 50
     第三節 抽樣結果 57
     第四節 模型比較 62
     第五節 模型結果 75
     第五章 結論與建議 78
     第一節 結論 78
     第二節 建議 83
     參考文獻 85
     附錄 87
zh_TW
dc.language.iso en_US-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0090354003en_US
dc.subject (關鍵詞) 資料採礦zh_TW
dc.subject (關鍵詞) 保單貸款zh_TW
dc.subject (關鍵詞) 類神經網路zh_TW
dc.subject (關鍵詞) CARTen_US
dc.subject (關鍵詞) C4.5en_US
dc.title (題名) 以資料採礦技術分析大台北地區保單貸款zh_TW
dc.type (資料類型) thesisen
dc.relation.reference (參考文獻) 參考文獻zh_TW
dc.relation.reference (參考文獻) Berry, M. J. A., and Linoff, G. S. (1997), Data Mining Techniques: for Marketing, Sales, and Customer Support. John Wiley & Sons Inc, New York.zh_TW
dc.relation.reference (參考文獻) Berry, M. J. A., and Linoff, G. S. (2000), Mastering Data Mining Techniques, The Art & Science of Customer Relationship Management. John Wiley & Sons Inc., New York.zh_TW
dc.relation.reference (參考文獻) Breiman, L. Friedman, J.H., Olshen, R. A., and Stone, C. J. (1984).. Classification and Regression Trees. Wadsworth, Pacific Grove, California.zh_TW
dc.relation.reference (參考文獻) Dunham, M. H. (2003), Data Mining: Introductory and Advanced Topics. Pearson Education Inc., Upper Saddle River, New Jersey.zh_TW
dc.relation.reference (參考文獻) Freund, Y., and Schapire, R. E. (1996), “Experiments with a New Boosting Algorithm”. Machine Learning: Proceedings of the Thirteenth International Conference.zh_TW
dc.relation.reference (參考文獻) Friedman, J., Hastie, T., and Tibshirani R. (1998), Additive Logistic Regression: a Statistical View of Boosting,zh_TW
dc.relation.reference (參考文獻) Smith, M. (1993), Neural Networks for Statistical Modeling. Van Norstrand Reinhold, New York.zh_TW
dc.relation.reference (參考文獻) Terano, T., Liu, H., and Chen, A. L. P. (2000), Knowledge Discovery and Data Mining: Current Issues and New Applications. Springer-Verlag, Berling, Germany.zh_TW
dc.relation.reference (參考文獻) Witten, I. H., and Eibe, F. (2000), Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann Publishers, San Francisco, California.zh_TW
dc.relation.reference (參考文獻) 中國科學技術大學生物醫學工程跨係委員會,神經網路及其應用,儒林圖書,1993。zh_TW
dc.relation.reference (參考文獻) 江世傑,模糊類神經網路在消費性貸款之應用,國立成功大學工業管理學系碩士論文,2001。zh_TW
dc.relation.reference (參考文獻) 呂奇傑,演化式類神經網路分類技術於資料探勘上之應用,輔仁大學應用統計研究所碩士論文,2001。zh_TW
dc.relation.reference (參考文獻) 邱蔚群,資料採礦技術在保險公司客戶保單貸款行為研究的應用,國立政治大學統計學系碩士論文,2003。zh_TW
dc.relation.reference (參考文獻) 張金華,適用於資料挖掘的屬性挑選與快速k-means組群化演算法,逢甲大學資訊工程學系碩士論文,2000。zh_TW
dc.relation.reference (參考文獻) 張維哲,人工神經網路,全欣資訊圖書,1992。zh_TW
dc.relation.reference (參考文獻) 陳智宏,應用類神經網路於電力系統負載之溫度敏感度分析,國立中山大學電機工程學系研究所碩士論文,2002。zh_TW
dc.relation.reference (參考文獻) 黃國源,類神經網路與圖形辨識,維科,2000。zh_TW
dc.relation.reference (參考文獻) 葉怡成,類神經網路模式應用與實作(第7版),儒林圖書公司,台北市,2000。zh_TW
dc.relation.reference (參考文獻) 傅心家,神經網路導論,第三波,1991。zh_TW
dc.relation.reference (參考文獻) 彭慧雯,建構信用卡資料挖礦架構及其實證研究,國立台北科技大學生產系統工程與管理研究所碩士論文,2001。zh_TW
dc.relation.reference (參考文獻) 楊雅媛,迴歸分析與類神經網路預測能力之比較,國立政治大學統計學系碩士論文,2002。zh_TW
dc.relation.reference (參考文獻) 蔡宗憲,短期列車旅運需求預測~類神經網路模式之應用,國立成功大學交通管理學系碩士論文,2001。zh_TW
dc.relation.reference (參考文獻) 蔡智政,應用CART決策樹與資料視覺技術於低良率晶圓成因探討,元智大學工業工程與管理學系碩士論文,2002。zh_TW
dc.relation.reference (參考文獻) 趙士儀,以主成份分析法處理定量資料缺失值問題,元智大學資訊管理研究所碩士論文,2000。zh_TW
dc.relation.reference (參考文獻) 劉黛君,線性鑑別分析、邏吉斯迴歸及分類和迴歸樹之比較,國立台北大學統計學系碩士論文,2001。zh_TW
dc.relation.reference (參考文獻) 鄭忠樑,運用分類樹於股價報酬率預測之研究,元智大學資訊管理學系研究所碩士論文,2002。zh_TW
dc.relation.reference (參考文獻) 賴信良,資料挖掘在教育上的應用-以國小學童「體適能測驗」為例,國立台北師範學院數理教育研究所碩士論文,2002。zh_TW
dc.relation.reference (參考文獻) 謝邦昌,資料採礦入門及應用-從統計技術看資料採礦,2001。zh_TW