Publications-Theses

Article View/Open

Publication Export

Google ScholarTM

NCCU Library

Citation Infomation

Related Publications in TAIR

題名 擴充先前知識以輔助資料發掘
Extending Prior Knowledge for Data Mining
作者 林幸怡
貢獻者 楊亨利
林幸怡
關鍵詞 資料發掘
先前知識
Data Mining
Prior Knowledge
日期 1997
上傳時間 10-May-2016 16:16:10 (UTC+8)
摘要   資料發掘研究重點在於幫助使用者於眾多現存資料中發掘出隱含於其內而先前未知的可能有用資料。目前有三大主要研究派別:(1)類神經網路(2)歸納學習方法論(3)統計方法。由於本研究之研究目的在於加入先前知識於資料發掘過程中,因此選用歸納學習方法論。歸納學習方法其內又可分為樹狀分類法,關聯分析法及概念樹導向歸納學習法,由於採概念樹導向歸納學習法所能處理的資料發掘問題種類較完整,其它二種歸納學習方法均著重於某一特定種類的資料發掘問題處理,因此,本研究針對概念樹導向歸納學習法做研究基礎,探討先前知識的種類及其運用方式,以期能增加資料發掘後的意義性。
       首先從文獻中了解目前資料發掘領域的研究現況,從而由擴充先前知識的角度切入,利用企業法則、實體層次之一般化、集合化、聚集化等抽象化觀念、延伸之資料字典及經驗法則等先前知識得出更合適的資料以供資料發掘,並對於概念樹導向歸納學習法做適當的修改,提出研究架構。再以假想的學校資料庫,發展出一套雛形系統,驗証本架構的可行性。最後提出進一步的研究建議,以供後續研究參考。
  The research objective of data mining is to help users find previous unknown and maybe usable information from database. There are three ways to do this:(l)neutral network (2)inductive learning (3)statistics. Inductive Learning has three different ways: learning by decision trees, association rules and using concept trees.
       Because concept trees approach to inductive learning can solve more kinds of problem, the other two ways just can solve one kind of problem, we choose using concept trees to be our foundation of this research. At the same time, we explore and discuss serveral kinds of prior knowledge and their applications. We hope that it can increase the semantics of mining results.
       This thesis, first surveys previous research in data mining and discuss the prior knowledge that they included. Then, we propose our idea of extending and using prior knowledge including data abstractions (generalization, association and aggregation) in the extended entity-relationship model, bussiness rule, extended data dictionary and heuristics, in order to assist the process of data mining. A prototype is reported to prove our research architecture. Finally, some sugestion are given to future research.
描述 碩士
國立政治大學
資訊管理學系
84356010
資料來源 http://thesis.lib.nccu.edu.tw/record/#A2010000736
資料類型 thesis
dc.contributor.advisor 楊亨利zh_TW
dc.contributor.author (Authors) 林幸怡zh_TW
dc.creator (作者) 林幸怡zh_TW
dc.date (日期) 1997en_US
dc.date.accessioned 10-May-2016 16:16:10 (UTC+8)-
dc.date.available 10-May-2016 16:16:10 (UTC+8)-
dc.date.issued (上傳時間) 10-May-2016 16:16:10 (UTC+8)-
dc.identifier (Other Identifiers) A2010000736en_US
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/95980-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 資訊管理學系zh_TW
dc.description (描述) 84356010zh_TW
dc.description.abstract (摘要)   資料發掘研究重點在於幫助使用者於眾多現存資料中發掘出隱含於其內而先前未知的可能有用資料。目前有三大主要研究派別:(1)類神經網路(2)歸納學習方法論(3)統計方法。由於本研究之研究目的在於加入先前知識於資料發掘過程中,因此選用歸納學習方法論。歸納學習方法其內又可分為樹狀分類法,關聯分析法及概念樹導向歸納學習法,由於採概念樹導向歸納學習法所能處理的資料發掘問題種類較完整,其它二種歸納學習方法均著重於某一特定種類的資料發掘問題處理,因此,本研究針對概念樹導向歸納學習法做研究基礎,探討先前知識的種類及其運用方式,以期能增加資料發掘後的意義性。
       首先從文獻中了解目前資料發掘領域的研究現況,從而由擴充先前知識的角度切入,利用企業法則、實體層次之一般化、集合化、聚集化等抽象化觀念、延伸之資料字典及經驗法則等先前知識得出更合適的資料以供資料發掘,並對於概念樹導向歸納學習法做適當的修改,提出研究架構。再以假想的學校資料庫,發展出一套雛形系統,驗証本架構的可行性。最後提出進一步的研究建議,以供後續研究參考。
zh_TW
dc.description.abstract (摘要)   The research objective of data mining is to help users find previous unknown and maybe usable information from database. There are three ways to do this:(l)neutral network (2)inductive learning (3)statistics. Inductive Learning has three different ways: learning by decision trees, association rules and using concept trees.
       Because concept trees approach to inductive learning can solve more kinds of problem, the other two ways just can solve one kind of problem, we choose using concept trees to be our foundation of this research. At the same time, we explore and discuss serveral kinds of prior knowledge and their applications. We hope that it can increase the semantics of mining results.
       This thesis, first surveys previous research in data mining and discuss the prior knowledge that they included. Then, we propose our idea of extending and using prior knowledge including data abstractions (generalization, association and aggregation) in the extended entity-relationship model, bussiness rule, extended data dictionary and heuristics, in order to assist the process of data mining. A prototype is reported to prove our research architecture. Finally, some sugestion are given to future research.
en_US
dc.description.tableofcontents 目錄-----i
     附圖目次-----vi
     表格目次-----viii
     謝詞-----ix
     摘要-----x
     ABSTRACT-----xi
     第一章 緒論
       第一節 研究背景-----1
       第二節 研究動機、目的-----2
       第三節 研究方法與步驟-----3
       第四節 研究限制-----4
     第二章 文獻探討
       第一節 資料發掘(Data Mining)的定義與應用-----5
         一、定義-----5
         二、源起-----5
       第二節 資料發掘的流程-----6
       第三節 資料發掘的方式-----7
         一、類神經-----7
         二、歸納學習-----7
         三、統計及數學方法-----8
       第四節 資料發掘的架構-----8
       第五節 架構探討-----10
         一、與使用者界面的處理問題-----10
           (一)界面種類-----10
           (二)問題種類-----12
         二、資料庫相關議題-----13
           (一)資料庫設計與管理問題-----13
           (二)不同資料庫型態與資料種類問題-----16
         三、結合應用領域知識,幫助擷取動作的進行-----17
         四、擷取出之知識的表達問題及後續處理問題-----18
           (一)知識用途-----18
           (二)表達方式-----25
           (三)後續處理方式-----25
         五、資料發掘方式的演算法設計-----27
           (一)樹狀分類法-----27
           (二)關聯資料分析法-----28
           (三)概念樹導向的歸納學習-----30
           (四)意義性判斷-----34
       第六節 綜合評論-----34
         一、歸納學習法之整理對應-----34
         二、以前研究之綜合評論-----37
           (一)使用者界面-----37
           (二)資料庫相關議題-----38
           (三)應用領域知識-----38
           (四)發掘出知識的表達-----39
           (五)資料發掘方式的演算法設計-----39
     第三章 研究架構
       第一節 研究架構內容定義與用途-----42
         一、使用者需求界定-----43
           (一)界面種類-----43
           (二)問題種類-----43
         二、資料庫-----45
         三、先前知識庫-----45
           (一)企業法則-----46
           (二)資料庫抽象化觀念-----47
           (三)延伸之資料字典-----51
           (四)經驗法則-----53
           (五)屬性值抽象化定義-----62
           (六)數值資料處理-----63
         四、資料發掘方法-----64
           (一)資料發掘方法—知識規則的處理方式-----64
           (二)意義性判斷(屬性選擇)-----65
         五、結果呈現-----66
       第二節 演算法之整體流程-----67
         一、使用者問題分類-----68
         二、涉及一般化、集合化、聚集化之問題延伸範圍選定-----70
         三、路徑選擇-----72
       第三節 與以前研究的比較-----73
         一、與以前研究的比較-----73
           (一)先前知識的使用-----73
           (二)修改Han等人之演算法-----74
           (三)意義性判斷-----75
           (四)回饋-----76
         二、與國內之研究比較-----76
           (一)與薛如芳之研究(八十四年)比較-----76
           (二)與周立平(八十四年)之研究比較-----77
     第四章 系統雛型實作
       第一節 雛型系統設計-----78
       第二節 發展環境-----79
         一、Visual Basic的架構圖-----79
         二、VB中SQL簡介-----80
         三、本雛型系統的硬體環境-----82
       第三節 雛型系統介紹-----83
         一、使用者界面-----83
           (一)系統環境簡介-----83
           (二)系統功能介紹-----84
           (三)屬性條件限制-----85
           (四)處理問題種類-----91
           (五)介面設計理由-----91
         二、資料庫-----92
         三、先前知識-----92
           (一)企業法則-----93
           (二)資料抽象化觀念-----97
           (三)延伸之資料字典-----97
           (四)經驗法則-----100
           (五)屬性值抽象化定義-----104
         四、資料發掘-----104
         五、結果說明-----105
       第四節 本架構下之其它可能建構工具-----106
       第五節 雛型系統的執行效率-----107
       第六節 系統維護與擴充-----108
       第七節 實例說明-----109
         一、單一實體之一般化延伸-----109
         二、單一實體之集合化延伸-----110
         三、二實體之一般化延伸-----112
         四、使用者選擇路徑-----114
         五、屬性條件(一)-----115
         六、屬性條件(二)-----117
     第五章 結論與建議
       第一節 結論-----120
       第二節 後續研究的建議-----123
     參考文獻-----126
     附錄
       附錄一 資料庫欄位定義-----132
       附錄二 企業法則-----133
       附錄三 資料庫抽象化觀念-----134
       附錄四 延伸之資料字典-----135
       附錄五 屬性值抽象化定義-----138
       附錄六 參考概念樹歸納學習法之演算法-----141
       附錄七 系統測試範例-----142
       附錄八 EER-----143
     
     附圖目次
     圖1 資訊發掘流程-----6
     圖2 資料發掘架構圖-----9
     圖3 決策樹-----19
     圖4 進化規則-----24
     圖5 研究架構-----42
     圖6 實體之一般化關係實例-----54
     圖7 實體之集合化關係實例-----55
     圖8 實體之聚集化關係實例-----56
     圖9 實體之對應比率圖-----61
     圖10 演算法流程-----67
     圖11 使用者問題分類-----68
     圖12 涉及一般化、集合化、聚集化之問題範圍選定-----71
     圖13 路徑選擇-----72
     圖14 雛型系統概念圖-----78
     圖15 Visual Basic之架構圖-----80
     圖16 VB中之物件屬性定義-----81
     圖17 系統主畫面-----83
     圖18 屬性選擇條件輸入畫面-----84
     圖19 單一實體中多個屬性值選擇之訊息視窗-----87
     圖20 屬性條件限制之部份畫面-----87
     圖21 規則種類選擇-----91
     圖22 選擇分析屬性-----91
     圖23 路徑選擇畫面-----103
     圖24 抽象化後之資料畫面-----105
     圖25 發掘結果畫面-----106
     圖26 發掘目的輸入畫面-----106
     圖27 單一實體之一般化延伸圖例一-----109
     圖28 單一實體之一般化延伸圖例二-----110
     圖29 單一實體之集合化延伸圖例-----111
     圖30 二實體之聚集化延伸圖例-----113
     圖31 使用者選擇路徑之圖例一-----114
     圖32 使用者選擇路徑之圖例二-----115
     圖33 屬性條件(一)之圖例一-----116
     圖34 屬性條件(一)之圖例二-----116
     圖35 屬性條件(二)之圖例一-----117
     圖36 屬性條件(二)之圖例二-----118
     
     表格目次
     表1 特性規則-----19
     表2 區別規則-----20
     表3 分群規則-----23
     表4 進化規則-----24
     表5 歸納學習方法與資訊發掘架構之對應-----37
     表6 一般化、集合化及聚集化關係之相對知識規則選擇-----59
     表7 聚集化之圖例一-----63
     表8 聚集化之圖例二-----63
     表9 聚集化之圖例三-----63
     表10 本研究與國內之前研究之比較-----77
     表11 MS SQL與標準SQL之資料型態差異比較表-----82
     表12 單一實體之集合(聚集)化關係延伸-----101
zh_TW
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#A2010000736en_US
dc.subject (關鍵詞) 資料發掘zh_TW
dc.subject (關鍵詞) 先前知識zh_TW
dc.subject (關鍵詞) Data Miningen_US
dc.subject (關鍵詞) Prior Knowledgeen_US
dc.title (題名) 擴充先前知識以輔助資料發掘zh_TW
dc.title (題名) Extending Prior Knowledge for Data Miningen_US
dc.type (資料類型) thesisen_US