應用資料採礦技術於多個資料庫連結與整合 | Publication

Publications-Theses

Article View/Open

html(485)

Publication Export

Google Scholar^TM

題名	應用資料採礦技術於多個資料庫連結與整合
作者	劉致琪
貢獻者	鄭宇庭<br>謝邦昌 <br> 劉致琪
關鍵詞	資料採礦資料加值函數映射
日期	2004
上傳時間	2009-09-14
摘要	現今電子化的時代，有些企業雖然擁有數百萬的資料，但要分析起來是相當困難且耗時的，往往又浪費人力與金錢，而又無法得到預期的結果。而利用資料採礦技術，便可以從這大量的資料中，挖掘出隱藏的、有用的訊息及知識，還可以從既有的資料預測未來，使企業可優先獲得商機。對於資料採礦而言，一開始的資料收集便是一項很重要的課題，資料品質的良莠，牽動著結果的正確性及預測的成敗。但每一個研究主題都有其各自的目的、所需的資料變數、適用的演算法等等，所以也有可能無法幸運地在同一個資料庫中得到所需的完整訊息，若是重新進行調查，是很費時、費力的工作。當我們面臨以上問題時，對於部份資料的缺漏該如何補救呢？！這便是我們在本研究中的研究目的。所以我們可以試著從現有的資料庫下，利用兩個其他的資料庫來輔助，利用函數映射的方法來補齊我們所要的資料，如此情況下再來做資料採礦，便能更有效率；對於我們所建立出來的預測模型，也更為準確。在資料庫連結的過程中，我們討論了三種情況，分別為三個資料庫間有相同欄位、兩兩資料庫有相同欄位、三個資料庫間沒有相同欄位。從研究結果發現，不管資料庫之間有無相同欄位可供連結使用，利用函數映射方法為資料庫增加訊息是可行的，而且效能相當不錯，可以提供給資料採礦工作者在蒐集資料時的參考，以及未來的研究方向。
參考文獻	● 中文參考文獻 ﹝1﹞ 尹世成 (2004)，資料方體效能預估模式之研究，輔仁大學資訊管理學系碩士論文。 ﹝2﹞ 尹相志 (2003)，SQL 2000 Analysis Service 資料採礦服務。台北：維科圖書有限公司。 ﹝3﹞ 包寶茹 (2004)，應用資料採礦技術於資料庫加值中的誤差指標及模型準則，政治大學統計研究所碩士論文。 ﹝4﹞ 江建志 (2001)，資料採礦於顧客忠誠度管理之研究，成功大學資訊管理研究所碩士論文。 ﹝5﹞ 沈清正、陳仕昇、高鴻斌、張元哲、陳家仁、黃琮盛、陳彥良(2002)，資料間隱含關係的挖掘與展望，資訊管理學報第九卷，專刊期。 ﹝6﹞ 何冠章 (1995)，資料庫應用。台北：高點文化事業有限公司。 ﹝7﹞ 林傑斌、劉明德、陳湘 (2002)，資料採掘與OLAP理論與實務。台北：文魁資訊股份有限公司。 ﹝8﹞ 林建言（2004），利用函數映射進行資料庫增值於資料採礦中，政治大學統計研究所碩士論文。 ﹝9﹞ 陳會安、陳峰棋 (2002)，資料庫理論與實務—以Access 2002為例。台北：學貫行銷股份有限公司。 ﹝10﹞ 劉慧瑜 (2000)，資料提煉技術在虛擬商店之應用，中興大學應用數學研究所資訊組碩士論文。 ﹝11﹞ 謝邦昌 (2001)，資料採礦入門及應用---從統計技術看資料採礦。台北：資商訊息顧問有限公司。 ● 英文參考文獻 ﹝1﹞ Agresti, A. (1996)，An Introduction to Categorical Data Analysis. New York：John Wiley & Sons,Inc. ﹝2﹞ Berry, M. J. A and Linoff, G. S. (1997)，Data Mining Techniques：for marketing, Sales, and Customer Support. New York：John Wiley & Sons Inc. ﹝3﹞ Berry, M. J. A and Linoff, G. S. (2000)，Mastering Data Mining Techniques：The Art and Science of Customer Relationship Management. New York：John Wiley & Sons Inc. ﹝4﹞ Fayyed, U., Piatetsky-Shapiro, G. and Smyth, P. (1996)，The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications Of The ACM. ﹝5﹞ Rawlings, J. O., Pantula, S. G. and Dickey, D. A. (1998)，Applied Regression Analysis. New York：Springer-Verlag New York,Inc. ﹝6﹞ Smith, M. (1993),Neural Networks for Statistical Modeling.New York：Van Nostrand Reinhold.
描述	碩士國立政治大學統計研究所 92354018 93
資料來源	http://thesis.lib.nccu.edu.tw/record/#G0923540181
資料類型	thesis

dc.contributor.advisor	鄭宇庭<br>謝邦昌	zh_TW
dc.contributor.advisor	<br>	en_US
dc.contributor.author (Authors)	劉致琪	zh_TW
dc.creator (作者)	劉致琪	zh_TW
dc.date (日期)	2004	en_US
dc.date.accessioned	2009-09-14	-
dc.date.available	2009-09-14	-
dc.date.issued (上傳時間)	2009-09-14	-
dc.identifier (Other Identifiers)	G0923540181	en_US
dc.identifier.uri (URI)	https://nccur.lib.nccu.edu.tw/handle/140.119/30949	-
dc.description (描述)	碩士	zh_TW
dc.description (描述)	國立政治大學	zh_TW
dc.description (描述)	統計研究所	zh_TW
dc.description (描述)	92354018	zh_TW
dc.description (描述)	93	zh_TW
dc.description.abstract (摘要)	現今電子化的時代，有些企業雖然擁有數百萬的資料，但要分析起來是相當困難且耗時的，往往又浪費人力與金錢，而又無法得到預期的結果。而利用資料採礦技術，便可以從這大量的資料中，挖掘出隱藏的、有用的訊息及知識，還可以從既有的資料預測未來，使企業可優先獲得商機。對於資料採礦而言，一開始的資料收集便是一項很重要的課題，資料品質的良莠，牽動著結果的正確性及預測的成敗。但每一個研究主題都有其各自的目的、所需的資料變數、適用的演算法等等，所以也有可能無法幸運地在同一個資料庫中得到所需的完整訊息，若是重新進行調查，是很費時、費力的工作。當我們面臨以上問題時，對於部份資料的缺漏該如何補救呢？！這便是我們在本研究中的研究目的。所以我們可以試著從現有的資料庫下，利用兩個其他的資料庫來輔助，利用函數映射的方法來補齊我們所要的資料，如此情況下再來做資料採礦，便能更有效率；對於我們所建立出來的預測模型，也更為準確。在資料庫連結的過程中，我們討論了三種情況，分別為三個資料庫間有相同欄位、兩兩資料庫有相同欄位、三個資料庫間沒有相同欄位。從研究結果發現，不管資料庫之間有無相同欄位可供連結使用，利用函數映射方法為資料庫增加訊息是可行的，而且效能相當不錯，可以提供給資料採礦工作者在蒐集資料時的參考，以及未來的研究方向。	zh_TW
dc.description.tableofcontents	第一章緒論 ………………………………………… 1 第一節研究背景 ……………………………………………… 1 第二節研究動機 ……………………………………………… 2 第三節研究目的 ……………………………………………… 3 第四節研究流程 ……………………………………………… 4 第五節論文架構 ……………………………………………… 5 第二章文獻探討 ……………………………………… 6 第一節資料庫、資料倉儲簡介 ……………………………… 6 第二節資料採礦簡介 ………………………………………… 8 一、資料採礦的定義、目的 ………………………………… 8 二、資料庫知識發掘(KDD) …………………………………… 9 三、資料採礦的主要工作 ……………………………………… 10 第三節資料庫加值 ……………………………………… 13 一、函數映射概念介紹 …………………………………… 13 二、函數映射方法評估 …………………………………… 14 第四節預測模型 ……………………………………………… 15 一、迴歸方法 ……………………………………………… 15 二、決策樹 ………………………………………………… 17 三、類神經網路 …………………………………………… 18 第三章研究方法 ……………………………………… 22 第一節研究概念 ……………………………………………… 22 第二節研究流程 ……………………………………………… 27 第三節研究方法 ……………………………………………… 30 第四章實證分析 ……………………………………… 32 第一節資料庫簡介 …………………………………………… 32 第二節實證研究過程 ………………………………………… 33 第五章結論與研究方向 ……………………………… 50 第一節結論與建議 …………………………………………… 50 第二節未來研究方向 ………………………………………… 51 參考文獻 ………………………………………………… 53 附錄一 …………………………………………………… 55 附錄二 …………………………………………………… 58 附錄三 …………………………………………………… 61 附錄四 …………………………………………………… 64 附錄五 …………………………………………………… 67	zh_TW
dc.language.iso	en_US	-
dc.source.uri (資料來源)	http://thesis.lib.nccu.edu.tw/record/#G0923540181	en_US
dc.subject (關鍵詞)	資料採礦	zh_TW
dc.subject (關鍵詞)	資料加值	zh_TW
dc.subject (關鍵詞)	函數映射	zh_TW
dc.title (題名)	應用資料採礦技術於多個資料庫連結與整合	zh_TW
dc.type (資料類型)	thesis	en
dc.relation.reference (參考文獻)	● 中文參考文獻	zh_TW
dc.relation.reference (參考文獻)	﹝1﹞ 尹世成 (2004)，資料方體效能預估模式之研究，輔仁大學資訊管理學系碩士論文。	zh_TW
dc.relation.reference (參考文獻)	﹝2﹞ 尹相志 (2003)，SQL 2000 Analysis Service 資料採礦服務。台北：維科圖書有限公司。	zh_TW
dc.relation.reference (參考文獻)	﹝3﹞ 包寶茹 (2004)，應用資料採礦技術於資料庫加值中的誤差指標及模型準則，政治大學統計研究所碩士論文。	zh_TW
dc.relation.reference (參考文獻)	﹝4﹞ 江建志 (2001)，資料採礦於顧客忠誠度管理之研究，成功大學資訊管理研究所碩士論文。	zh_TW
dc.relation.reference (參考文獻)	﹝5﹞ 沈清正、陳仕昇、高鴻斌、張元哲、陳家仁、黃琮盛、陳彥良(2002)，資料間隱含關係的挖掘與展望，資訊管理學報第九卷，專刊期。	zh_TW
dc.relation.reference (參考文獻)	﹝6﹞ 何冠章 (1995)，資料庫應用。台北：高點文化事業有限公司。	zh_TW
dc.relation.reference (參考文獻)	﹝7﹞ 林傑斌、劉明德、陳湘 (2002)，資料採掘與OLAP理論與實務。台北：文魁資訊股份有限公司。	zh_TW
dc.relation.reference (參考文獻)	﹝8﹞ 林建言（2004），利用函數映射進行資料庫增值於資料採礦中，政治大學統計研究所碩士論文。	zh_TW
dc.relation.reference (參考文獻)	﹝9﹞ 陳會安、陳峰棋 (2002)，資料庫理論與實務—以Access 2002為例。台北：學貫行銷股份有限公司。	zh_TW
dc.relation.reference (參考文獻)	﹝10﹞ 劉慧瑜 (2000)，資料提煉技術在虛擬商店之應用，中興大學應用數學研究所資訊組碩士論文。	zh_TW
dc.relation.reference (參考文獻)	﹝11﹞ 謝邦昌 (2001)，資料採礦入門及應用---從統計技術看資料採礦。台北：資商訊息顧問有限公司。	zh_TW
dc.relation.reference (參考文獻)	● 英文參考文獻	zh_TW
dc.relation.reference (參考文獻)	﹝1﹞ Agresti, A. (1996)，An Introduction to Categorical Data Analysis. New York：John Wiley & Sons,Inc.	zh_TW
dc.relation.reference (參考文獻)	﹝2﹞ Berry, M. J. A and Linoff, G. S. (1997)，Data Mining Techniques：for marketing, Sales, and Customer Support. New York：John Wiley & Sons Inc.	zh_TW
dc.relation.reference (參考文獻)	﹝3﹞ Berry, M. J. A and Linoff, G. S. (2000)，Mastering Data Mining Techniques：The Art and Science of Customer Relationship Management. New York：John Wiley & Sons Inc.	zh_TW
dc.relation.reference (參考文獻)	﹝4﹞ Fayyed, U., Piatetsky-Shapiro, G. and Smyth, P. (1996)，The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications Of The ACM.	zh_TW
dc.relation.reference (參考文獻)	﹝5﹞ Rawlings, J. O., Pantula, S. G. and Dickey, D. A. (1998)，Applied Regression Analysis. New York：Springer-Verlag New York,Inc.	zh_TW
dc.relation.reference (參考文獻)	﹝6﹞ Smith, M. (1993),Neural Networks for Statistical Modeling.New York：Van Nostrand Reinhold.	zh_TW

Publications-Theses

Article View/Open

Publication Export

Google ScholarTM

NCCU Library

Citation Infomation

Related Publications in TAIR

Google Scholar^TM