dc.contributor.advisor | 鄭宇庭<br>蔡紋琦<br>謝邦昌 | zh_TW |
dc.contributor.author (Authors) | 林盈方 | zh_TW |
dc.contributor.author (Authors) | Lin, Ying Fang | en_US |
dc.creator (作者) | 林盈方 | zh_TW |
dc.creator (作者) | Lin, Ying Fang | en_US |
dc.date (日期) | 2010 | en_US |
dc.date.accessioned | 5-Oct-2011 14:31:57 (UTC+8) | - |
dc.date.available | 5-Oct-2011 14:31:57 (UTC+8) | - |
dc.date.issued (上傳時間) | 5-Oct-2011 14:31:57 (UTC+8) | - |
dc.identifier (Other Identifiers) | G0098354007 | en_US |
dc.identifier.uri (URI) | http://nccur.lib.nccu.edu.tw/handle/140.119/51202 | - |
dc.description (描述) | 碩士 | zh_TW |
dc.description (描述) | 國立政治大學 | zh_TW |
dc.description (描述) | 統計研究所 | zh_TW |
dc.description (描述) | 98354007 | zh_TW |
dc.description (描述) | 99 | zh_TW |
dc.description.abstract (摘要) | 近幾年來資料採礦及雲端運算的興起,導致許多公司企業紛紛推出有關雲端運算的服務,或利用資料採礦的技術以助於了解客戶行為。而資料採礦的技術不僅是企業所獨享的一個工具,一般非企業的使用者也常常會面臨到決策問題,為了讓一般使用者能夠方便取得軟體工具以及節省時間成本,本研究以雲端運算為概念,利用RExcel軟體和Excel VBA程式語言為研究工具,發展出一個資料採礦分類雲端運算系統。 本研究將欲分類的目標變數分為三種型態:數字連續型、數字類別型以及文字類別型,此分類系統會依照目標變數型態的不同,而採取不同的分類模型來分析使用者之資料,並分別以三個資料檔為例,上傳至此資料採礦之分類系統進行分析後,其分析結果報表將以網頁預覽的方式呈現給使用者,使用者可以針對連續型目標變數的資料分析結果,利用MAPE值評估分類模型之優劣,而類別型目標變數的資料分析結果,則可以正確率來評估分類模型之優劣。 使用者可透過簡易步驟來操作此系統,並選擇可解釋資料之最佳模型,也可從結果報表中獲取資料之特性,更進一步地可以進行所需的決策。關鍵字:雲端運算、資料採礦、分類模型 | zh_TW |
dc.description.abstract (摘要) | In resent years, the rise of data mining and cloud computing has led many enterprises have been offering services related to cloud computing, or using data mining techniques to understand customer behaviors. Data mining is a tool not only for enterprises, but also for general non-business users who often face making decisions. In order to enable general users to easily assess the software and save time and costs, this study proposes a classification system of data mining constructed by RExcel and Excel VBA, which is based on cloud computing. In this study, the target variable is divided into three types: digital continuous, digital categorical and literal categorical. The classification system is in accordance with the different types of target variables, taking different classification models to analyze user’s data. Taking three data as examples, respectively, uploading them to the system, then the analysis results will be present to the user in the way of page preview. The user can use MAPE values to evaluate classification models with regard to the results of the data for the continuous target variable, and use correct rate to evaluate classification models with regard to the results of the data for the categorical target variable. Users can take simple steps to operate the system, select the best model which can explain the data, and obtain the characteristics of the data from the result reports, further to the necessary decision-making.Keyword: cloud computing, data mining, classification models | en_US |
dc.description.tableofcontents | 摘 要 IAbstract II目 錄 III表 次 IV圖 次 V第壹章 緒論 1第一節 研究背景與動機 1第二節 研究目的 2第三節 研究架構 3第貳章 文獻探討 5第一節 雲端運算的概述 5第二節 資料採礦概述 13第三節 相關應用之文獻探討 19第參章 研究方法 22第一節 研究工具介紹 22第二節 研究流程 25第三節 分類模型方法 31第肆章 實證分析 37第一節 研究限制 37第二節 數字連續型目標變數 38第三節 數字類別型目標變數 48第四節 文字類別型目標變數 61第伍章 結論與建議 74第一節 結論 74第二節 建議與未來研究方向 75參考文獻 76表 次表2-1 2010年11月超級電腦前十名 8表2-2 各家公司所提供的雲端運算服務的比較 12表2-3 資料採礦在各領域的應用 19表3-1 二元目標變數之錯誤分類表 28表4-1 Babies資料說明 39表4-2 分類模型之MAPE比較 47表4-3 Egyptian Skulls資料說明 48表4-4 分類模型之正確率、精確度及回應率比較 61表4-5 iris資料說明 61表4-6 分類模型之正確率比較 73圖 次圖1-1 雲端分類系統平台之概念 3圖1-2 論文架構圖 4圖2-1 資料庫知識發掘之流程圖 14圖2-2 CRISP-DM模型建構流程圖 15圖3-1 R軟體介面 23圖3-2 RExcel和R Commander介面 23圖3-3 Excel VBA編輯器的開發環境 25圖3-4 資料分析與工具流程 26圖3-5 研究流程 30圖3-6 決策樹 31圖3-7 SVM分類步驟 34圖3-8 SVM調校過程 34圖4-1 資料格式 38圖4-2 使用者上傳欲分析資料之視窗 40圖4-3 瀏覽並選取欲載入的檔案之視窗 40圖4-4 檢視上傳資料之視窗 41圖4-5 選擇欲分析之資料採礦功能之視窗 41圖4-6 資料採礦之分類功能之視窗 42圖4-7 「UserData」工作表 43圖4-8 「Tree」工作表 43圖4-9 決策樹分析結果報表 44圖4-10 「SVM」工作表 45圖4-11 支持向量機分析結果報表 46圖4-12 「RandomForest」工作表 46圖4-13 隨機森林分析結果報表 47圖4-14 使用者上傳欲分析資料之視窗 49圖4-15 瀏覽並選取欲載入的檔案之視窗 49圖4-16 檢視上傳資料之視窗 50圖4-17 選擇欲分析之資料採礦功能之視窗 50圖4-18 資料採礦之分類功能之視窗 51圖4-19 「UserData」工作表 52圖4-20 「Tree」工作表 52圖4-21 決策樹分析結果報表 54圖4-22 「SVM」工作表 55圖4-23 支持向量機分析結果報表 56圖4-24 「Discriminant」工作表 57圖4-25 判別分析結果報表 58圖4-26 「RandomForest」工作表 59圖4-27 隨機森林分析結果報表 60圖4-28 使用者上傳欲分析資料之視窗 62圖4-29 瀏覽並選取欲載入的檔案之視窗 63圖4-30 檢視上傳資料之視窗 63圖4-31 選擇欲分析之資料採礦功能之視窗 64圖4-32 資料採礦之分類功能之視窗 64圖4-33 「UserData」工作表 65圖4-34 「Tree」工作表 66圖4-35 決策樹分析結果報表 67圖4-36 「SVM」工作表 68圖4-37 支持向量機分析結果報表 69圖4-38 「Discriminant」工作表 70圖4-39 判別分析結果報表 71圖4-40 「RandomForest」工作表 72圖4-41 隨機森林分析結果報表 73 | zh_TW |
dc.language.iso | en_US | - |
dc.source.uri (資料來源) | http://thesis.lib.nccu.edu.tw/record/#G0098354007 | en_US |
dc.subject (關鍵詞) | 雲端運算 | zh_TW |
dc.subject (關鍵詞) | 資料採礦 | zh_TW |
dc.subject (關鍵詞) | 分類模型 | zh_TW |
dc.subject (關鍵詞) | cloud computing | en_US |
dc.subject (關鍵詞) | data mining | en_US |
dc.subject (關鍵詞) | classification models | en_US |
dc.title (題名) | 導入雲端運算概念於資料採礦之分類系統 | zh_TW |
dc.title (題名) | Implement the concept of the cloud computing into the classification system of data mining | en_US |
dc.type (資料類型) | thesis | en |
dc.relation.reference (參考文獻) | 一、 中文文獻 | zh_TW |
dc.relation.reference (參考文獻) | 1、 尹相志(2006),Microsoft SQL 2005資料採礦聖經,台北市:學貫行銷股份有限公司。 | zh_TW |
dc.relation.reference (參考文獻) | 2、 何東隆、李美真(2002),Excel 2002 VBA與進階應用,台北市:文魁資訊。 | zh_TW |
dc.relation.reference (參考文獻) | 3、 李至和(2006),爭搶e商機 特力屋 虛擬商城開張,經濟日報,A11版企業要聞。 | zh_TW |
dc.relation.reference (參考文獻) | 4、 李開文(2008),雲端運算、格網運算與P2P運算(中)[電子版],2011年2月28日,取自台灣中等學校資訊管理人學會https://sites.google.com/a/tsima.org.tw/www/wiki/dian-zi-qi-kan/2008nian10yue-hao/yun-duan-yun-suan-ge-wang-yun-suan-yup2p-yun-suan-zhong#TOC-2。 | zh_TW |
dc.relation.reference (參考文獻) | 5、 林東清(2003),資訊管理:e化企業的核心競爭能力(第四版),台北市:智勝文化事業有限公司。 | zh_TW |
dc.relation.reference (參考文獻) | 6、 洪士吉(1999),操作輕鬆巨集通 : Excel VBA巨集逐步操作指引,台北市:旗標出版股份有限公司。 | zh_TW |
dc.relation.reference (參考文獻) | 7、 洪嘉興(2003),資料挖掘(Data Mining)淺析,華控月刊,2003011,17-25。 | zh_TW |
dc.relation.reference (參考文獻) | 8、 桂思強(1995),深造Excel VBA,台北市:博碩顧問。 | zh_TW |
dc.relation.reference (參考文獻) | 9、 曾憲雄、蔡秀滿、蘇東興、曾秋蓉、王慶堯(2007),資料探勘Data Mining,台北市:旗標出版股份有限公司。 | zh_TW |
dc.relation.reference (參考文獻) | 10、 雲端運算使用案例討論小組(2010),雲端運算使用案例白皮書(第三版)。 | zh_TW |
dc.relation.reference (參考文獻) | 11、 鄒淑文(2010,3月19日),雲端平台:整合看不到的價值,聯合報經濟日報,電子通訊。 | zh_TW |
dc.relation.reference (參考文獻) | 12、 蔡士源(2004),Excel VBA語法字典,台北市:文魁資訊。 | zh_TW |
dc.relation.reference (參考文獻) | 13、 謝至恩(2008),服務在雲端,NMT第201期。 | zh_TW |
dc.relation.reference (參考文獻) | 14、 謝邦昌、鄭宇庭、蘇志雄(2009),Data Mining概述-以Clementine12.0為例,新北市:中華資料採礦協會。 | zh_TW |
dc.relation.reference (參考文獻) | 15、 曠文琪(2006),平價超級電腦正接手我們的生活,商業周刊第972期。 | zh_TW |
dc.relation.reference (參考文獻) | 16、 瀨戶遙(2002),嗯!Excel VBA我也會PRO. 2000/2002對應,新北市:博碩文化。 | zh_TW |
dc.relation.reference (參考文獻) | 17、 蘇芷萱(2011),中華電佈局智慧雲端產業 喊出今年通信業務成長10億元目標,2011年2月27日,取自華視新聞網網址。 | zh_TW |
dc.relation.reference (參考文獻) | http://news.cts.com.tw/cnyes/money/201101/201101110650346.html。 | zh_TW |
dc.relation.reference (參考文獻) | 二、 英文文獻 | zh_TW |
dc.relation.reference (參考文獻) | 1、 Breiman, L. (1984), Classification and regression trees, Wadsworth Internatonal Group. | zh_TW |
dc.relation.reference (參考文獻) | 2、 Breiman, L. (2001), Random Forests. Machine Learning, 45 (1): 5-32. | zh_TW |
dc.relation.reference (參考文獻) | 3、 Crawley, M. J. (2007), The R book. Chichester, West Sussex, England ; Hoboken, N.J.: Wiley. | zh_TW |
dc.relation.reference (參考文獻) | 4、 Fayyad, U., G. P. Shapiro and P. Smyth (1996), From Data Mining to Knowledge Discovery in Database. AI Magazine, 17, 37-54. | zh_TW |
dc.relation.reference (參考文獻) | 5、 Foster, I. and C. Kesselman (2004), The grid : blueprint for a new computing infrastructure. Elsevier Inc. | zh_TW |
dc.relation.reference (參考文獻) | 6、 Frawley, W. J., G. Gregory, P. S. Matheus and C. J. Matheus (1991), Knowledge Discovery in Databases: an Overview in Knowledge Discovery in Databases. Cambridge, MA: AAAI/MIT, 213-228. | zh_TW |
dc.relation.reference (參考文獻) | 7、 Frawley, W. J., S. G. Paitetsky and C. J. Matheus (1996), Knowledge Discovery in Databases: An Overview. Communications of the ACM, 39, 1-34. | zh_TW |
dc.relation.reference (參考文獻) | 8、 Heiberger, R. M. and N. Erich (2009), R Through Excel (1st ed.). New York : Springer. | zh_TW |
dc.relation.reference (參考文獻) | 9、 Han, J. and M. Kamber (2001), Data Mining: Concepts and Techniques. Simon Fraser University, Morgan Kaufmann Publishers. | zh_TW |
dc.relation.reference (參考文獻) | 10、 Hartigan, J. A. (1975), Clustering algorithms, New York: Wiley. | zh_TW |
dc.relation.reference (參考文獻) | 11、 Loh, W.Y. and Y. S. Shih (1997), Split selection methods for classification trees, Statistica Sinica, 7, 815-840. | zh_TW |
dc.relation.reference (參考文獻) | 12、 Maindonald, J. H. (2007), Data analysis and graphics using R : an example-based approach (2nd ed.). Cambridge, U.K. ; New York : Cambridge University Press. | zh_TW |
dc.relation.reference (參考文獻) | 13、 Mell, P. and T. Grance (2009), The NIST Definition of Cloud Computing [Electronic version]. National Institute of Standards and Technology, 53, 2-3. | zh_TW |
dc.relation.reference (參考文獻) | 14、 Quinlan, J. R. (1979), Discovering rules from large collections of examples: a case study. In Michie. Expert Systems in the Microelectronic Age. Edinburgh, Scotland: Edinburgh University Press. | zh_TW |
dc.relation.reference (參考文獻) | 15、 Ripley, B. D. (1996), Pattern recognition and neural networks, Cambridge University Press. | zh_TW |
dc.relation.reference (參考文獻) | 16、 Shannon, C. E. and W. Weaver (1949), The Mathematical Theory of Communication. University Illinois Press, Urbana. | zh_TW |
dc.relation.reference (參考文獻) | 17、 Usama, F., G. Gregory, P. S. Matheus and P. Smyth (1996), The KDD Process for Extracting Useful Knowledge from Volumes of Data, Communications of the ACM, 39(11), 27-34. | zh_TW |
dc.relation.reference (參考文獻) | 18、 Westphal, R. C. (1998), Data mining solutions : methods and tools for solving real-world problems, New York : John Wiley & Sons. | zh_TW |
dc.relation.reference (參考文獻) | 19、 Witten, I. H. and F. Eibe (2005), Data mining : practical machine learning tools and techniques, Amsterdam, The Netherlands ; Boston, Mass. | zh_TW |
dc.relation.reference (參考文獻) | 20、 Zhang, C. Q. and S. C. Zhang(2002), Association rule mining : models and algorithms, Berlin; New York : Springer. | zh_TW |
dc.relation.reference (參考文獻) | 三、 相關網站 | zh_TW |
dc.relation.reference (參考文獻) | 1、 台灣雲端運算產業協會 http://www.twcloud.org.tw/Cloud/introduce4.do/。 | zh_TW |
dc.relation.reference (參考文獻) | 2、 發展雲端技術應用 中華攜手趨勢領航新時代http://news.networkmagazine.com.tw/Construction/2010/04/01/18518/。 | zh_TW |
dc.relation.reference (參考文獻) | 3、 Slesforce.com http://www.salesforce.com/tw/。 | zh_TW |
dc.relation.reference (參考文獻) | 4、 TOP 500 SUPERCOMPUTER SITES http://www.top500.org/。 | zh_TW |
dc.relation.reference (參考文獻) | 5、 iThome Online http://www.ithome.com.tw/itadm/channel.php?tab=1/。 | zh_TW |
dc.relation.reference (參考文獻) | 6、 Cross Industry Standard Process for Data Mining http://www.crisp-dm.org/。 | zh_TW |
dc.relation.reference (參考文獻) | 7、 The Data and Story Library http://lib.stat.cmu.edu/DASL/DataArchive.html/。 | zh_TW |