學術產出-Theses

Article View/Open

Publication Export

Google ScholarTM

政大圖書館

Citation Infomation

  • No doi shows Citation Infomation
題名 監督式學習與R 語言
An overview of supervised learning with R
作者 趙蘭益
貢獻者 周珮婷
趙蘭益
關鍵詞 機器學習
日期 2017
上傳時間 3-Jul-2017 14:34:46 (UTC+8)
摘要 本研究著重比較各監督式學習的優缺點,再搭配統計軟體R 做舉例說明,並比較分類正確率,期望在不同的資料形態下找出最合適的分類方法。決策樹最大優勢在於可清楚知道分類過程,能夠讓使用者理解與解釋。隨機森林修正了決策樹預測準確率不高的缺點,並且可用來降低資料維度。最近鄰居法的演算法簡單易懂,樸素貝葉斯分類器在少量訓練及資料上也能做準確的預測分類,羅吉斯回歸建立在札實的數學理論上,是傳統且廣泛運用的分類方法之一,特色是可預測每一筆資料的類別機率值。人工神經網路對於人工智慧的發展有著重要影響,它的學習精度高、回想速度快,且輸出值可為連續值與不連續值。SVM 在小樣本、非線性及高維模式識別問題中表現出特有的優勢,並已應用於手寫體識別、三維目標識別、人臉識別、文本圖像分類等實際問題中。若資料為連續型或混和型建議使用最近鄰居法做分類,可得到較佳的預測準確率。若資料為類別型則使用隨機森林和支援向量機。
參考文獻 決策樹(Decision Tree)在Quinlan, J. R. 的著作"Simplifying decision trees"當中提出,是一個用來輔助決策的工具,他用樹狀圖或是決策模型把所有可能的結果都寫出來,然後在其中加入機率、成本和效用,是屬於演算法的一種。決策樹通常用在研究分析,特別是決策分析,用來找出最可能達到目標的策略,它也是機器學習常用的工具或是用來描述條件機率的手段之一。Karimi, K. and Hamilton, H.J. 在2011年的"Generation and Interpretation of Temporal Decision Rules"提出將所有事件線性化,並且包含前因後果關係,不同的事件做出不同的決定,就會產生不同的結果,就好像樹的枝葉,每個節點都有機率性質在內,並包含時間先後概念。
隨機森林(Random Forests)的演算法最早是由Ho, Tin Kam在(1995)"Random Decision Forests"和1998年"The Random Subspace Method for Constructing Decision Forests"當中所提出的隨機子空間所構思,他將Eugene Kleinberg提出的"Stochastic Modeling Method"得到了實現。隨機森林將多棵決策樹合成一個森林,之後此森林輸出的類別是由個別樹輸出的類別的眾數而定。此演算法的改進和擴充是由Breiman , Leo和 Cutler, Adele共同開發,"Random Forests"是他們的商標,此擴展的演算法包含了隨機選擇的特徵,此特徵是由Ho, Tin Kam率先提出,之後再由Amit 和Geman建立了可以控制決策樹集合的變異數的方法。在Hastie, Trevor、Tibshirani, Robert和Friedman, Jerome (2008)共同著作的書籍"The Elements of Statistical Learning (2nd ed.) "中指出隨機森林修正了決策樹經常會過度配適的缺點。
最近鄰居法(K Nearest Neighbor)簡稱KNN,是最簡單和基本的分類法之一,當我們的資料筆數很少或是很難獲得正確或是可靠的母體參數,KNN會是研究資料分類的最佳選擇之一。它的原理很簡單,先將訓練資料的每個變數定義成向量特徵空間,每筆資料在特徵空間中會有其對應的位置,如果當新的資料加入時,看它周圍的資料屬於哪一類別的最多,就將它判定為此類別。後來在1967年Cover, T.M.和Hart, P.E.在著作"Nearest neighbor pattern classification"當中制定了KNN的一些正式屬性,列如:當K=1且數據趨近於無限大,它的分類誤差不會超過兩倍的貝氏錯誤率。在基本的數學模型被確定之後,很多不同的演算法開始出現,例如考量兩筆資料點之間的距離,較鄰近的資料點分類有較高的權重比例,並且距離的算法也有很多種,像是Dudani, S.A的"The distance-weighted k-nearest-neighbor rule"和Bailey, T., Jain, A.的"A note on distance-weighted k-nearest neighbor rules"都有提到距離和權重的計算方法可供參考。
羅吉斯回歸(Logistic Regression)在Freedman, David A.(2009)的"Statistical Models: Theory and Practice"書當中也稱作羅吉回歸(logit regression)或是羅吉模型(logit model)。
羅吉回歸由統計學家Cox, David在1958年的著作"The regression analysis of binary sequences (with discussion)"中提出,另外在Walker, S.H.; Duncan, D.B. (1967) "Estimation of the probability of an event as a function of several independent variables"也有提到,廣義線性模型(GLM)主要在探討兩個變數之間的關係,分別是反應變數(依變數)與解釋變數(自變數),而羅吉斯回歸(logistic regression, LR)模型是GLM中重要的模型,用於反應變數只有兩種結果且為離散型資料。
樸素貝葉斯分類器(Naive Bayes Classifier)又稱作簡單貝葉斯(simple Bayes)或是獨立貝葉斯(independence Bayes)在Russell, Stuart和Norvig, Peter (2003)的著作書籍當中,但在Hand, D. J.和 Yu, K. (2001)的著作"Idiot`s Bayes — not so stupid after all?"當中稱它不一定使用到貝氏機率(Bayesian probability),所以將它叫做傻瓜貝葉斯模型。這個分類器的主要假設為各個變數之間為強獨立,再運用貝氏定理作為基礎,是一個演算法簡單的機率分類器,自20世紀50年代已廣泛研究,Rennie, J.和 Shih, L.提出經由適當的處理後,它可以與現代更先進的分類器演算法相競爭。Rish, Irina於2001年發表的論文中,將它應用在自動醫療診斷上。
人工神經網路(artificial neural network)也稱作類神經網路,簡稱ANN,模仿生物神經網路結構的演算法,特別是生物的大腦,擁有自我學習的能力。McCulloch, Warren和 Pitts,Walter在1943年用數學基礎和一種稱為閾值邏輯的演算法創造了神經網路的計算模型,接著在1940年代末期,心理學家Donald Hebb根據神經可塑性的機制創造了一種對學習的假說,稱作赫布型學習,屬於非監督式學習,並將此模型運用在圖靈機上。
Farley, B.G.和 Clark, W.A.在1954年首次用電腦模擬了赫布網路,接著Frank Rosenblatt設計了感知器加入模型中,他用簡單的加減法實現了兩層的電腦學習網路,並用數學符號描述了迴路,但是其中的異或迴路一直無法被神經網路處理直到Werbos, Paul(1975)創造了反向傳播演算法。再之後的30年,由於大型神經網路所需要的很長的計算時間,導致研究進展緩慢,直到最近人工智慧與深度學習重新激發了人們對神經網路的興趣。
支援向量機(Support Vector Machine)簡稱SVM,此分類模型的任務是找出一個適當的超平面並將資料分成兩類。最初的演算法是由Vapnik, Vladimir N.和Chervonenkis, Alexey Ya.在1963年發明的,到了1992年Boser, Bernhard E.、 Guyon, Isabelle M.和Vapnik, Vladimir N.在著作"A training algorithm for optimal margin classifiers"中提到將核技巧應用於最大間隔超平面來建立非線性分類器的方法,隨後Cortes, Corinna和Vapnik又提出線性SVM分為硬間隔和軟間隔兩種。SVM目前已被廣泛的運用在文字與超文字的分類、圖像或是手寫字型的辨識,另外在醫學影像分析的"Spatial regularization of SVM for the detection of diffusion alterations associated with stroke outcome"著作中用SVM來分類蛋白質,辨識成功率超過九成,是在生物科學中具有特殊意義且相對較新的研究領域。
描述 碩士
國立政治大學
統計學系
103354009
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0103354009
資料類型 thesis
dc.contributor.advisor 周珮婷zh_TW
dc.contributor.author (Authors) 趙蘭益zh_TW
dc.creator (作者) 趙蘭益zh_TW
dc.date (日期) 2017en_US
dc.date.accessioned 3-Jul-2017 14:34:46 (UTC+8)-
dc.date.available 3-Jul-2017 14:34:46 (UTC+8)-
dc.date.issued (上傳時間) 3-Jul-2017 14:34:46 (UTC+8)-
dc.identifier (Other Identifiers) G0103354009en_US
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/110649-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 統計學系zh_TW
dc.description (描述) 103354009zh_TW
dc.description.abstract (摘要) 本研究著重比較各監督式學習的優缺點,再搭配統計軟體R 做舉例說明,並比較分類正確率,期望在不同的資料形態下找出最合適的分類方法。決策樹最大優勢在於可清楚知道分類過程,能夠讓使用者理解與解釋。隨機森林修正了決策樹預測準確率不高的缺點,並且可用來降低資料維度。最近鄰居法的演算法簡單易懂,樸素貝葉斯分類器在少量訓練及資料上也能做準確的預測分類,羅吉斯回歸建立在札實的數學理論上,是傳統且廣泛運用的分類方法之一,特色是可預測每一筆資料的類別機率值。人工神經網路對於人工智慧的發展有著重要影響,它的學習精度高、回想速度快,且輸出值可為連續值與不連續值。SVM 在小樣本、非線性及高維模式識別問題中表現出特有的優勢,並已應用於手寫體識別、三維目標識別、人臉識別、文本圖像分類等實際問題中。若資料為連續型或混和型建議使用最近鄰居法做分類,可得到較佳的預測準確率。若資料為類別型則使用隨機森林和支援向量機。zh_TW
dc.description.tableofcontents 第一章 緒論 1
第一節 研究動機 1
第二節 監督式學習 2
第三節 研究目的 2
第四節 資料敘述 3
第二章 文獻探討 4
第三章 研究方法 7
第一節 決策樹 7
第二節 隨機森林 11
第三節 最近鄰居法 14
第四節 羅吉斯回歸 17
第五節 樸素貝葉斯分類器 22
第六節 人工神經網路 24
第七節 支援向量機 28
第四章 研究結果與討論 32
第一節 方法比較 32
第二節 研究結果 33
第三節 問題討論 35
參考文獻 36
zh_TW
dc.format.extent 1396635 bytes-
dc.format.mimetype application/pdf-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0103354009en_US
dc.subject (關鍵詞) 機器學習zh_TW
dc.title (題名) 監督式學習與R 語言zh_TW
dc.title (題名) An overview of supervised learning with Ren_US
dc.type (資料類型) thesisen_US
dc.relation.reference (參考文獻) 決策樹(Decision Tree)在Quinlan, J. R. 的著作"Simplifying decision trees"當中提出,是一個用來輔助決策的工具,他用樹狀圖或是決策模型把所有可能的結果都寫出來,然後在其中加入機率、成本和效用,是屬於演算法的一種。決策樹通常用在研究分析,特別是決策分析,用來找出最可能達到目標的策略,它也是機器學習常用的工具或是用來描述條件機率的手段之一。Karimi, K. and Hamilton, H.J. 在2011年的"Generation and Interpretation of Temporal Decision Rules"提出將所有事件線性化,並且包含前因後果關係,不同的事件做出不同的決定,就會產生不同的結果,就好像樹的枝葉,每個節點都有機率性質在內,並包含時間先後概念。
隨機森林(Random Forests)的演算法最早是由Ho, Tin Kam在(1995)"Random Decision Forests"和1998年"The Random Subspace Method for Constructing Decision Forests"當中所提出的隨機子空間所構思,他將Eugene Kleinberg提出的"Stochastic Modeling Method"得到了實現。隨機森林將多棵決策樹合成一個森林,之後此森林輸出的類別是由個別樹輸出的類別的眾數而定。此演算法的改進和擴充是由Breiman , Leo和 Cutler, Adele共同開發,"Random Forests"是他們的商標,此擴展的演算法包含了隨機選擇的特徵,此特徵是由Ho, Tin Kam率先提出,之後再由Amit 和Geman建立了可以控制決策樹集合的變異數的方法。在Hastie, Trevor、Tibshirani, Robert和Friedman, Jerome (2008)共同著作的書籍"The Elements of Statistical Learning (2nd ed.) "中指出隨機森林修正了決策樹經常會過度配適的缺點。
最近鄰居法(K Nearest Neighbor)簡稱KNN,是最簡單和基本的分類法之一,當我們的資料筆數很少或是很難獲得正確或是可靠的母體參數,KNN會是研究資料分類的最佳選擇之一。它的原理很簡單,先將訓練資料的每個變數定義成向量特徵空間,每筆資料在特徵空間中會有其對應的位置,如果當新的資料加入時,看它周圍的資料屬於哪一類別的最多,就將它判定為此類別。後來在1967年Cover, T.M.和Hart, P.E.在著作"Nearest neighbor pattern classification"當中制定了KNN的一些正式屬性,列如:當K=1且數據趨近於無限大,它的分類誤差不會超過兩倍的貝氏錯誤率。在基本的數學模型被確定之後,很多不同的演算法開始出現,例如考量兩筆資料點之間的距離,較鄰近的資料點分類有較高的權重比例,並且距離的算法也有很多種,像是Dudani, S.A的"The distance-weighted k-nearest-neighbor rule"和Bailey, T., Jain, A.的"A note on distance-weighted k-nearest neighbor rules"都有提到距離和權重的計算方法可供參考。
羅吉斯回歸(Logistic Regression)在Freedman, David A.(2009)的"Statistical Models: Theory and Practice"書當中也稱作羅吉回歸(logit regression)或是羅吉模型(logit model)。
羅吉回歸由統計學家Cox, David在1958年的著作"The regression analysis of binary sequences (with discussion)"中提出,另外在Walker, S.H.; Duncan, D.B. (1967) "Estimation of the probability of an event as a function of several independent variables"也有提到,廣義線性模型(GLM)主要在探討兩個變數之間的關係,分別是反應變數(依變數)與解釋變數(自變數),而羅吉斯回歸(logistic regression, LR)模型是GLM中重要的模型,用於反應變數只有兩種結果且為離散型資料。
樸素貝葉斯分類器(Naive Bayes Classifier)又稱作簡單貝葉斯(simple Bayes)或是獨立貝葉斯(independence Bayes)在Russell, Stuart和Norvig, Peter (2003)的著作書籍當中,但在Hand, D. J.和 Yu, K. (2001)的著作"Idiot`s Bayes — not so stupid after all?"當中稱它不一定使用到貝氏機率(Bayesian probability),所以將它叫做傻瓜貝葉斯模型。這個分類器的主要假設為各個變數之間為強獨立,再運用貝氏定理作為基礎,是一個演算法簡單的機率分類器,自20世紀50年代已廣泛研究,Rennie, J.和 Shih, L.提出經由適當的處理後,它可以與現代更先進的分類器演算法相競爭。Rish, Irina於2001年發表的論文中,將它應用在自動醫療診斷上。
人工神經網路(artificial neural network)也稱作類神經網路,簡稱ANN,模仿生物神經網路結構的演算法,特別是生物的大腦,擁有自我學習的能力。McCulloch, Warren和 Pitts,Walter在1943年用數學基礎和一種稱為閾值邏輯的演算法創造了神經網路的計算模型,接著在1940年代末期,心理學家Donald Hebb根據神經可塑性的機制創造了一種對學習的假說,稱作赫布型學習,屬於非監督式學習,並將此模型運用在圖靈機上。
Farley, B.G.和 Clark, W.A.在1954年首次用電腦模擬了赫布網路,接著Frank Rosenblatt設計了感知器加入模型中,他用簡單的加減法實現了兩層的電腦學習網路,並用數學符號描述了迴路,但是其中的異或迴路一直無法被神經網路處理直到Werbos, Paul(1975)創造了反向傳播演算法。再之後的30年,由於大型神經網路所需要的很長的計算時間,導致研究進展緩慢,直到最近人工智慧與深度學習重新激發了人們對神經網路的興趣。
支援向量機(Support Vector Machine)簡稱SVM,此分類模型的任務是找出一個適當的超平面並將資料分成兩類。最初的演算法是由Vapnik, Vladimir N.和Chervonenkis, Alexey Ya.在1963年發明的,到了1992年Boser, Bernhard E.、 Guyon, Isabelle M.和Vapnik, Vladimir N.在著作"A training algorithm for optimal margin classifiers"中提到將核技巧應用於最大間隔超平面來建立非線性分類器的方法,隨後Cortes, Corinna和Vapnik又提出線性SVM分為硬間隔和軟間隔兩種。SVM目前已被廣泛的運用在文字與超文字的分類、圖像或是手寫字型的辨識,另外在醫學影像分析的"Spatial regularization of SVM for the detection of diffusion alterations associated with stroke outcome"著作中用SVM來分類蛋白質,辨識成功率超過九成,是在生物科學中具有特殊意義且相對較新的研究領域。
zh_TW