學術產出-Theses

Article View/Open

Publication Export

Google ScholarTM

政大圖書館

Citation Infomation

  • No doi shows Citation Infomation
題名 利用函數映射進行資料庫增值於資料採礦中
作者 林建言
貢獻者 鄭宇庭<br>謝邦昌
<br>
林建言
關鍵詞 資料採礦
函數映射
資料庫加值
Data Mining
Functional Mapping
Database Value-added
日期 2003
上傳時間 2009-09-14
摘要 人口的增長、現代化的生活環境,讓人們必須去面對隨時不斷產生的巨量資料;不過值得慶幸的是,電腦設備的運算、儲存能力一直在改進,所以人類所能處理的資料量也隨之提升,資料採礦技術的發展便是人類嘗試在大量資料中進行分析,以解決生活中所遇到的難題。
      許多實際個案的結果顯示,資料採礦工作確實能替分析者帶來更好的績效,然而仍是有不少的失敗案例。如果深入去分析失敗原因,問題並不是出於資料採礦技術無法使用,而是資料品質不良或是資料內涵資訊不足所導致的。
      資料庫中有用的變數不足的問題可以藉由重新收集資料解決,然而這勢必需要花費龐大的經費並且缺乏時效性。如何利用其他的外部資料來提昇資料庫的資訊含量便是本研究的目的。在實證過程中,利用工商業與服務業普查資料庫和技術創新資料庫做為分析所使用的資料庫;並且控制資料庫連結變數個數、建模資料比例和各類模型三個因子,採用函數映設方式,進行資料庫增值的工作。
      從研究結果可以發現,確實可以藉由其他資料或是資料庫的內容,來增加資料庫的內含欄位和訊息,希望能夠替資料採礦工作者提供一個節省精力的方向,而且做為未來更多研究的基礎。
     
     關鍵字:資料採礦、函數映射、資料庫加值。
參考文獻 一、中文部分
1. 尹相志(2003),SQL 2000 Analysis Service資料採礦服務。台北:維科圖書有限公司。
2. 周宏,周翔,林格(2000),統計學--應用統計篇。台北:鼎茂圖書出版有限公司。
3. 邱蔚群(2003),資料採礦技術在保險公司客戶保單貸款行為研究的應用,政治大學統計學研究所碩士論文。
4. 何玉芝(2003),資料採礦實務應用--以關聯規則分析E-ICP商品消費資料,政治大學統計學研究所碩士論文。
5. 呂奇傑(2001),演化式類神經網路分類技術於資料探勘上之應用,輔仁大學應統所碩士論文。
6. 林建發(2000),颱風降雨量之統計迴歸預測,中央大學統計學研究所碩士論文。
7. 李家旭(2003),應用資料採礦技術於保險公司附加保單之增售,政治大學統計學研究所碩士論文。
8. 李春雄(2001),資料庫與個案系統分析--校務行政電腦化系統實作。台北:文魁資訊。
9. 李珮榕(2003),以資料採礦技術分析大台北地區保單貸款,政治大學統計學研究所碩士論文。
10.韋端,鄭宇庭,鄧家駒,匡宏波,謝邦昌(2003),Data Mining概述--以Clementine 7.0為例。台北:中華資料採礦協會。
11.許哲偉(2002),資料挖掘與統計方法應用於資料庫行銷之實證研究--以美妝保養品業為例,台北大學企業管理學研究所碩士論文。
12.楊清潭(2003),應用資料探勘技術於顧客價值分析之研究,東吳大學資訊科學研究所碩士論文。
13.劉承愚(1999),企業智慧財產權的探討與規劃。台北:益思科技法律事務所。
14.諶家蘭(2002),資料庫管理系統:理論與實務。台北:智勝文化事業有限公司。
15.謝邦昌(2001),資料採礦入門及應用--從統計技術看資料採礦。台北:資商訊息顧問有限公司。
16.謝晴伃(2003),應用資料採礦技術於壽險產業客戶行為之探討,政治大學統計學研究所碩士論文。
二、英文部分
1. Agresti, A.(1996), An Introduction to Categorical Data Analysis. New York: John Wiley & Sons Inc.
2. Berry, M.J.A., and Linoff, G.S.(1997), Data Mining Techniques: for Marketing, Sales, and Customer Support. New York: John Wiley & Sons Inc.
3. Berry, M.J.A., and Linoff, G.S.(2000), Mastering Data Mining Techniques, The Art and Science of Customer Relationship Management. New York: John Wiley & Sons Inc.
4. Cox, D.R., and Snell, E.J.(1989), Analysis of Binary Data. London: Chapman and Hall.
5. Dunham, M.H.(2002), Data Mining: Introductory and Advanced Topics. New Jersey: Prentice Hall.
6. Ferguson, G.A., and Takane, Y.(1989), Statistical Analysis in Psychology and Education. New York: McGraw-Hill.
7. Kelly, M.C., and Aspray, W.(1999), Computer: A History of the Information Machine. New York: BasicBooks Press.
8. Minsky, M.L., and Papert, S.A.(1969), Perceptron. Cambridge, MA: MIT Press.
9. Netz, A., Chaudhuri, S., Burnhardt, J., Fayyad, U.(2000), Integration of Data Mining and Relational Database. Paper presented at the 26th International Conference on Very Large Database, Cairo, Egypt.
10. Quinlan, J.R.(1992), C4.5: Programs for Machine Learning, Morgan Kaufmann.
11. Rawlings, J.O., Pantula, S.G., and Dickey, D.A.(1998), Applied Regression Analysis: A Research Tool. New York: Springer-Verlag.
12. Rosenblatt, F.(1958), The Perceptron: A Probabilistic Model for information storage and organization in the brain. Psychological Review 65, 386-408.
13. Rumelhart, D.E., and McClelland, J.(1986), Parallel Distributed Processing, Vol 1. Cambridge, MA: MIT Press.
14. Smith, M.(1993), Neural Networks for Statistical Modeling. New York: Van Nostrand Reinhold.
15. Thuraisingham, B.M.(1999), Data Mining: Technologies, Techniques, Tools, and Trends. Boca Raton: CRC Press.
描述 碩士
國立政治大學
統計研究所
90354018
92
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0090354018
資料類型 thesis
dc.contributor.advisor 鄭宇庭<br>謝邦昌zh_TW
dc.contributor.advisor <br>en_US
dc.contributor.author (Authors) 林建言zh_TW
dc.creator (作者) 林建言zh_TW
dc.date (日期) 2003en_US
dc.date.accessioned 2009-09-14-
dc.date.available 2009-09-14-
dc.date.issued (上傳時間) 2009-09-14-
dc.identifier (Other Identifiers) G0090354018en_US
dc.identifier.uri (URI) https://nccur.lib.nccu.edu.tw/handle/140.119/30877-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 統計研究所zh_TW
dc.description (描述) 90354018zh_TW
dc.description (描述) 92zh_TW
dc.description.abstract (摘要) 人口的增長、現代化的生活環境,讓人們必須去面對隨時不斷產生的巨量資料;不過值得慶幸的是,電腦設備的運算、儲存能力一直在改進,所以人類所能處理的資料量也隨之提升,資料採礦技術的發展便是人類嘗試在大量資料中進行分析,以解決生活中所遇到的難題。
      許多實際個案的結果顯示,資料採礦工作確實能替分析者帶來更好的績效,然而仍是有不少的失敗案例。如果深入去分析失敗原因,問題並不是出於資料採礦技術無法使用,而是資料品質不良或是資料內涵資訊不足所導致的。
      資料庫中有用的變數不足的問題可以藉由重新收集資料解決,然而這勢必需要花費龐大的經費並且缺乏時效性。如何利用其他的外部資料來提昇資料庫的資訊含量便是本研究的目的。在實證過程中,利用工商業與服務業普查資料庫和技術創新資料庫做為分析所使用的資料庫;並且控制資料庫連結變數個數、建模資料比例和各類模型三個因子,採用函數映設方式,進行資料庫增值的工作。
      從研究結果可以發現,確實可以藉由其他資料或是資料庫的內容,來增加資料庫的內含欄位和訊息,希望能夠替資料採礦工作者提供一個節省精力的方向,而且做為未來更多研究的基礎。
     
     關鍵字:資料採礦、函數映射、資料庫加值。
zh_TW
dc.description.tableofcontents 第一章 緒論………………………………………………………… 1
      1.1 研究背景 .................................................................................................... 1
      1.2 研究動機 .................................................................................................... 2
      1.3 研究目的 .................................................................................................... 3
      1.4 研究流程 .................................................................................................... 3
      1.5 論文架構 .................................................................................................... 5
     
     第二章 文獻探討…………………………………………………… 6
      2.1 資料庫系統簡介 ........................................................................................ 6
      2.2 資料採礦概述 ............................................................................................ 7
      2.2.1 資料採礦的定義............................................................................. 7
      2.2.2 線上分析流程與資料採礦的關係 ............................................... 9
      2.2.3 資料採礦的功能 ........................................................................... 10
      2.3 資料採礦演算法 ........................................................................................ 11
      2.3.1 迴歸方法 ....................................................................................... 11
      2.3.2 類神經網路 ................................................................................... 14
      2.3.3 決策樹模型 ................................................................................... 20
     
     第三章 研究方法…………………………………………………… 24
      3.1 函數映射概念論述 .................................................................................... 24
      3.2 研究限制 .................................................................................................... 25
      3.3 研究方式 .................................................................................................... 26
      3.4 抽樣方法、模型建立與映射效用衡量 .................................................... 28
     
     第四章 實驗分析…………………………………………………… 30
      4.1 資料庫簡介 ................................................................................................ 30
      4.1.1 工商及服務業普查資料庫 ........................................................... 30
      4.1.2 技術創新資料庫 ........................................................................... 31
      4.2 實證研究過程 ............................................................................................ 32
      4.2.1 效果驗證過程的資料前置處理 ................................................... 32
      4.2.2 研究分析 ....................................................................................... 34
      4.2.3 工商服務業普查資料庫與技術創新資料庫之間的函數映射 ... 41
      4.3 小結 ............................................................................................................ 43
     
     第五章 結論與建議………………………………………………… 46
      5.1 結論與建議 ............................................................................................... 46
      5.2 未來研究方向 ........................................................................................... 47
     
     參考文獻……………………………………………………………… 50
     附錄一………………………………………………………………… 52
     附錄二………………………………………………………………… 55
     附錄三………………………………………………………………… 61
     附錄四………………………………………………………………… 64
     附錄五………………………………………………………………… 67
     附錄六………………………………………………………………… 70
zh_TW
dc.language.iso en_US-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0090354018en_US
dc.subject (關鍵詞) 資料採礦zh_TW
dc.subject (關鍵詞) 函數映射zh_TW
dc.subject (關鍵詞) 資料庫加值zh_TW
dc.subject (關鍵詞) Data Miningen_US
dc.subject (關鍵詞) Functional Mappingen_US
dc.subject (關鍵詞) Database Value-addeden_US
dc.title (題名) 利用函數映射進行資料庫增值於資料採礦中zh_TW
dc.type (資料類型) thesisen
dc.relation.reference (參考文獻) 一、中文部分zh_TW
dc.relation.reference (參考文獻) 1. 尹相志(2003),SQL 2000 Analysis Service資料採礦服務。台北:維科圖書有限公司。zh_TW
dc.relation.reference (參考文獻) 2. 周宏,周翔,林格(2000),統計學--應用統計篇。台北:鼎茂圖書出版有限公司。zh_TW
dc.relation.reference (參考文獻) 3. 邱蔚群(2003),資料採礦技術在保險公司客戶保單貸款行為研究的應用,政治大學統計學研究所碩士論文。zh_TW
dc.relation.reference (參考文獻) 4. 何玉芝(2003),資料採礦實務應用--以關聯規則分析E-ICP商品消費資料,政治大學統計學研究所碩士論文。zh_TW
dc.relation.reference (參考文獻) 5. 呂奇傑(2001),演化式類神經網路分類技術於資料探勘上之應用,輔仁大學應統所碩士論文。zh_TW
dc.relation.reference (參考文獻) 6. 林建發(2000),颱風降雨量之統計迴歸預測,中央大學統計學研究所碩士論文。zh_TW
dc.relation.reference (參考文獻) 7. 李家旭(2003),應用資料採礦技術於保險公司附加保單之增售,政治大學統計學研究所碩士論文。zh_TW
dc.relation.reference (參考文獻) 8. 李春雄(2001),資料庫與個案系統分析--校務行政電腦化系統實作。台北:文魁資訊。zh_TW
dc.relation.reference (參考文獻) 9. 李珮榕(2003),以資料採礦技術分析大台北地區保單貸款,政治大學統計學研究所碩士論文。zh_TW
dc.relation.reference (參考文獻) 10.韋端,鄭宇庭,鄧家駒,匡宏波,謝邦昌(2003),Data Mining概述--以Clementine 7.0為例。台北:中華資料採礦協會。zh_TW
dc.relation.reference (參考文獻) 11.許哲偉(2002),資料挖掘與統計方法應用於資料庫行銷之實證研究--以美妝保養品業為例,台北大學企業管理學研究所碩士論文。zh_TW
dc.relation.reference (參考文獻) 12.楊清潭(2003),應用資料探勘技術於顧客價值分析之研究,東吳大學資訊科學研究所碩士論文。zh_TW
dc.relation.reference (參考文獻) 13.劉承愚(1999),企業智慧財產權的探討與規劃。台北:益思科技法律事務所。zh_TW
dc.relation.reference (參考文獻) 14.諶家蘭(2002),資料庫管理系統:理論與實務。台北:智勝文化事業有限公司。zh_TW
dc.relation.reference (參考文獻) 15.謝邦昌(2001),資料採礦入門及應用--從統計技術看資料採礦。台北:資商訊息顧問有限公司。zh_TW
dc.relation.reference (參考文獻) 16.謝晴伃(2003),應用資料採礦技術於壽險產業客戶行為之探討,政治大學統計學研究所碩士論文。zh_TW
dc.relation.reference (參考文獻) 二、英文部分zh_TW
dc.relation.reference (參考文獻) 1. Agresti, A.(1996), An Introduction to Categorical Data Analysis. New York: John Wiley & Sons Inc.zh_TW
dc.relation.reference (參考文獻) 2. Berry, M.J.A., and Linoff, G.S.(1997), Data Mining Techniques: for Marketing, Sales, and Customer Support. New York: John Wiley & Sons Inc.zh_TW
dc.relation.reference (參考文獻) 3. Berry, M.J.A., and Linoff, G.S.(2000), Mastering Data Mining Techniques, The Art and Science of Customer Relationship Management. New York: John Wiley & Sons Inc.zh_TW
dc.relation.reference (參考文獻) 4. Cox, D.R., and Snell, E.J.(1989), Analysis of Binary Data. London: Chapman and Hall.zh_TW
dc.relation.reference (參考文獻) 5. Dunham, M.H.(2002), Data Mining: Introductory and Advanced Topics. New Jersey: Prentice Hall.zh_TW
dc.relation.reference (參考文獻) 6. Ferguson, G.A., and Takane, Y.(1989), Statistical Analysis in Psychology and Education. New York: McGraw-Hill.zh_TW
dc.relation.reference (參考文獻) 7. Kelly, M.C., and Aspray, W.(1999), Computer: A History of the Information Machine. New York: BasicBooks Press.zh_TW
dc.relation.reference (參考文獻) 8. Minsky, M.L., and Papert, S.A.(1969), Perceptron. Cambridge, MA: MIT Press.zh_TW
dc.relation.reference (參考文獻) 9. Netz, A., Chaudhuri, S., Burnhardt, J., Fayyad, U.(2000), Integration of Data Mining and Relational Database. Paper presented at the 26th International Conference on Very Large Database, Cairo, Egypt.zh_TW
dc.relation.reference (參考文獻) 10. Quinlan, J.R.(1992), C4.5: Programs for Machine Learning, Morgan Kaufmann.zh_TW
dc.relation.reference (參考文獻) 11. Rawlings, J.O., Pantula, S.G., and Dickey, D.A.(1998), Applied Regression Analysis: A Research Tool. New York: Springer-Verlag.zh_TW
dc.relation.reference (參考文獻) 12. Rosenblatt, F.(1958), The Perceptron: A Probabilistic Model for information storage and organization in the brain. Psychological Review 65, 386-408.zh_TW
dc.relation.reference (參考文獻) 13. Rumelhart, D.E., and McClelland, J.(1986), Parallel Distributed Processing, Vol 1. Cambridge, MA: MIT Press.zh_TW
dc.relation.reference (參考文獻) 14. Smith, M.(1993), Neural Networks for Statistical Modeling. New York: Van Nostrand Reinhold.zh_TW
dc.relation.reference (參考文獻) 15. Thuraisingham, B.M.(1999), Data Mining: Technologies, Techniques, Tools, and Trends. Boca Raton: CRC Press.zh_TW