
Article View/Open

Publication Export

Google ScholarTM

NCCU Library

Citation Infomation

Related Publications in TAIR

題名 應用實價登錄建立以聚類方法之堆疊泛化房價預測模型 -以桃園市區分建物房價資料為例
Predicting Housing Prices using Clustering-based Stacked Generator- A study on Taoyuan City Actual Price Registration Data
作者 黃允亭
Huang, Yun-Ting
貢獻者 陳樹衡<br>鄧筱蓉
Huang, Yun-Ting
關鍵詞 特徵選取
日期 2022
上傳時間 1-Mar-2022 17:52:29 (UTC+8)
摘要 本研究探討結合聚類分析的堆疊泛化模型對台灣房價預測的適用性。利用最新可用的桃園市實價登錄資料, 本研究首先拓展了Trivedi et. al (2015) 的聚類分析集成學習方法,建立了一個聚類分析的兩層堆疊泛化模型。第一層聚類分析群模型分別由Lasso,KNN以及決策樹建立,第二層元模型分別由線性迴歸、隨機森林以及XGBoost所建立。接下來用此拓展的兩層聚類分析堆疊泛化模型預測了桃園市房價資料,並與其他機器學習模型,包括線性迴歸、隨機森林和XGBoost,比較他們的預測結果。
This research explores the applicability of combining clustering technique with stacked generalization for Taiwan housing prices prediction. Taking advantage of the most currently available Taoyuan City Actual Price Registration Data, we first expanded the clustering-based ensemble learning method by Trivedi et al. (2015) to develop two-layer clustering-based stacked generalizers. In the first layer, three machine learning methods (Lasso, KNN and Decision Tree) were used to construct the cluster models. In the second layer, Linear Regression, Random Forest and XGBoost were used to build meta models. These developed stacked generalizers are then used to predict housing prices in the Taoyuan City. Their prediction accuracies are then compared with that from other machine learning methods, including Linear Regression, Random Forest and XGBoost.
參考文獻 [1] Altman, N. S. (1992). An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression. The American Statistician, 46(3), 175–185.
[2] Breiman, L. (1996a). Bagging Predictors. Machine Learning, 24(2), 123–140.
[3] Breiman, L. (1996b). Stacked Regressions Leo Breiman. Machine Learning, 24(1), 49–64.
[4] Breiman, L. (2001). Random Forests. Machine Learning, 45, 5–32.
[5] Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification And Regression Trees. Chapman & Hall/CRC, 368.
[6] Chen, T., & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. KDD, 785–794.
[7] Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics, 7(1), 1–26.
[8] Frank, A. and Asuncion, A. (2010). UCI machine learning repository.
[9] Freund, Y. (1995). Boosting a Weak Learning Algorithm by Majority. Information and Computation, 121(2), 256–285.
[10] Efron, B. (1997). A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting. J. Comput. Syst. Sci., 1(55), 119–139.
[11] Friedman, J., Hastie, T., & Tibshirani, R. (2010). Regularization Paths for Generalized Linear Models via Coordinate Descent. Journal of Statistical Software, 33(1), 1–22.
[12] Friedman, J. H. (2001). Boosting a Weak Learning Algorithm by Majority. Greedy Function Approximation: A Gradient Boosting Machine, 29(5), 1189–1232.
[13] Guyon, I., Weston, J., Barnhill, S., & Vapnik, V. (2002). Gene selection for cancer classification using Support Vector Machines. Machine Learning, 46(1-3), 389–422.
[14] Ho, T. K. (1995). Random Decision Forests. Proceedings of 3rd International Conference on Document Analysis and Recognition, 278–282.
[15] Huang, S.Y. and Yu, F. and Tsaih, R. H. and Huang, Y. (2014). Resistant Learning on the Envelope Bulk for Identifying Anomalous Patterns. 2014 International Joint Conference on Neural Networks (IJCNN), 3303–3310.
[16] Schapire, R. E. (1990). The Strength of Weak Learnability. Machine Learning, 5, 197–227.
[17] Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society. Series B (Methodological), 58(1), 267–288.
[18] Ting, K.M. & Witten, I.H. (1997). Stacked generalization: when does it work?. Hamilton, New Zealand: University of Waikato, Department of Computer Science.
[19] Trivedi, S., Pardos, Z. A., & Heffernan, N. T. (2015). The Utility of Clustering in Prediction Tasks. ArXiv:1509.06163.
[20] Van der laan, M. J., Polley, E. C., & Hubbard, A. E. (2007). Super Learner. Statistical Applications in Genetics and Molecular Biology, 6(25).
[21] Wolpert, D. H. (1992). Stacked Generalization. Neural Networks, 5(2), 241–259.
[22] Zou, H., & Hastie, T. (2005). Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society. Series B (Statistical Methodology), 67(2), 301–320.
[23] 何睿婷,(2018)。基於異質集成學習方法的房價預測。通訊世界,10,pp.296-297。
[24] 吳晏榕,(2010)。房價指數應用在銀行資產重估之研究。未出版之碩士論文,政治大學,經濟學研究所,台北市。
[25] 洪淑娟、雷立芬,(2010)。根據中古屋、預售屋/新成屋房價與總體經濟變數互動關係之研究。臺灣銀行季刊,61(1),pp.155-167。
[26] 洪鴻智、張能政,(2006)。不動產估價人員之價值探索過程:估價程序與參考點的選擇。建築與規劃學報,7(1),pp.71-90。
[27] 郁嘉綾,(2018)。應用大數據於杭州市房地產價格模型之建立。未出版之碩士論文,政治大學,統計學研究所,台北市。
[28] 張曦方,(1994)。住宅樓層價差之探討–以台北市為例。未出版之碩士論文,政治大學,地政學研究所,台北市。
[29] 陳敬筌,(2019)。應用深度學習預測區域住房平均價格— 以台北市實價登錄為例。未出版之碩士論文,銘傳大學,資訊管理學系碩士在職專班,台北市。
[30] 陳樹衡、郭子文、棗厥庸,(2007)。以決策樹之迴歸樹建構住宅價格模型-臺灣地區之實證分析。住宅學報,16(1),pp.1-20。
[31] 馮世傑,(2014)。房價影響變數之探討-以台北市為例。未出版之碩士論文。東吳大學,國際貿易學研究所,台北市。
[32] 黃佳鈴、張金鶚, (2005)。從房地價格分離探討地價指數與公告土地現值評估。台灣土地研究;8(2),pp.73-106。
[33] 楊博文、曹布陽,(2017)。基於集成學習的房價預測模型。電腦知識與技術,13(29),pp.191-194。
[34] 蔡育政,(2009)。影響房地產價格因素之研究:以台中市北屯區、西屯區、南屯區、中區、東區為例。未出版之碩士論文,朝陽科技大學,財務金融研究所,台中市。
[35] 蔡育展,(2017)。機器學習與房地產估價。未出版之碩士論文,政治大學,資訊管理學研究所,台北市。
[36] 蔡瑞煌、高明志、張金鶚,(1999)。類神經網路應用於房地產估價之研究。住宅學報,8,pp.1-20。
[37] 賴碧瑩,(2007)。應用類神經網路於電腦輔助大量估價。住宅學報,16(2),pp.43-65。
[38] 謝明穎,(2017) 。運用機器學習方法建構房價預測視覺化平台。未出版之碩士論文。輔仁大學,統計資訊學系應用統計研究所,新北市。
描述 碩士
資料類型 thesis
dc.contributor.advisor 陳樹衡<br>鄧筱蓉zh_TW (Authors) 黃允亭zh_TW (Authors) Huang, Yun-Tingen_US
dc.creator (作者) 黃允亭zh_TW
dc.creator (作者) Huang, Yun-Tingen_US (日期) 2022en_US 1-Mar-2022 17:52:29 (UTC+8)- 1-Mar-2022 17:52:29 (UTC+8)- (上傳時間) 1-Mar-2022 17:52:29 (UTC+8)-
dc.identifier (Other Identifiers) G0107258025en_US
dc.identifier.uri (URI)
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 經濟學系zh_TW
dc.description (描述) 107258025zh_TW
dc.description.abstract (摘要) 本研究探討結合聚類分析的堆疊泛化模型對台灣房價預測的適用性。利用最新可用的桃園市實價登錄資料, 本研究首先拓展了Trivedi et. al (2015) 的聚類分析集成學習方法,建立了一個聚類分析的兩層堆疊泛化模型。第一層聚類分析群模型分別由Lasso,KNN以及決策樹建立,第二層元模型分別由線性迴歸、隨機森林以及XGBoost所建立。接下來用此拓展的兩層聚類分析堆疊泛化模型預測了桃園市房價資料,並與其他機器學習模型,包括線性迴歸、隨機森林和XGBoost,比較他們的預測結果。zh_TW
dc.description.abstract (摘要) This research explores the applicability of combining clustering technique with stacked generalization for Taiwan housing prices prediction. Taking advantage of the most currently available Taoyuan City Actual Price Registration Data, we first expanded the clustering-based ensemble learning method by Trivedi et al. (2015) to develop two-layer clustering-based stacked generalizers. In the first layer, three machine learning methods (Lasso, KNN and Decision Tree) were used to construct the cluster models. In the second layer, Linear Regression, Random Forest and XGBoost were used to build meta models. These developed stacked generalizers are then used to predict housing prices in the Taoyuan City. Their prediction accuracies are then compared with that from other machine learning methods, including Linear Regression, Random Forest and XGBoost.en_US
dc.description.tableofcontents 第一章 緒論 1
第一節 研究動機 1
第二節 研究目的 3
第三節 本文貢獻 4
第四節 本文架構 5
第二章 文獻回顧 6
第一節 傳統台灣 房價因子決定與估計方法 6
第二節 人工智慧演算法於台灣房價估計之應用 8
第三節 集成學習及聚類方法在房價預測上的應用 11
第三章 機器學習方法介紹 14
第一節 機器學習的種類 14
第二節 監督式學習 15
第三節 非監督式學習 21
第四節 監督式集成學習 23
第五節 結合聚類方法的集成學習模型 39
第四章 資料、統計分析與資料預處理 46
第一節 資料來源與原特徵項目 46
第二節 統計分析 52
第三節 數據預處理 60
第五章 研究方法 73
第一節 研究流程圖 73
第二節 房屋價格預測評估標準 81
第六章 實驗結果與分析 83
第一節 特徵選取 83
第二節 建構兩層聚類堆疊泛化模型結果 86
第三節 第二層不同元模型堆疊泛化結果比較 94
第四節 堆疊泛化模型與其他機器學習模型預測結果比較 95
第五節 討論與總結 97
第七章 研究結論與建議 99
第一節 研究結論 99
第二節 未來方向 100
參考文獻 102
dc.format.extent 4693837 bytes-
dc.format.mimetype application/pdf-
dc.source.uri (資料來源)
dc.subject (關鍵詞) 特徵選取zh_TW
dc.subject (關鍵詞) 聚類分析zh_TW
dc.subject (關鍵詞) 機器學習zh_TW
dc.subject (關鍵詞) 集成學習zh_TW
dc.subject (關鍵詞) 堆疊泛化zh_TW
dc.subject (關鍵詞) 實價登錄zh_TW
dc.subject (關鍵詞) 房價預測zh_TW
dc.title (題名) 應用實價登錄建立以聚類方法之堆疊泛化房價預測模型 -以桃園市區分建物房價資料為例zh_TW
dc.title (題名) Predicting Housing Prices using Clustering-based Stacked Generator- A study on Taoyuan City Actual Price Registration Dataen_US
dc.type (資料類型) thesisen_US
dc.relation.reference (參考文獻) [1] Altman, N. S. (1992). An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression. The American Statistician, 46(3), 175–185.
[2] Breiman, L. (1996a). Bagging Predictors. Machine Learning, 24(2), 123–140.
[3] Breiman, L. (1996b). Stacked Regressions Leo Breiman. Machine Learning, 24(1), 49–64.
[4] Breiman, L. (2001). Random Forests. Machine Learning, 45, 5–32.
[5] Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification And Regression Trees. Chapman & Hall/CRC, 368.
[6] Chen, T., & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. KDD, 785–794.
[7] Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics, 7(1), 1–26.
[8] Frank, A. and Asuncion, A. (2010). UCI machine learning repository.
[9] Freund, Y. (1995). Boosting a Weak Learning Algorithm by Majority. Information and Computation, 121(2), 256–285.
[10] Efron, B. (1997). A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting. J. Comput. Syst. Sci., 1(55), 119–139.
[11] Friedman, J., Hastie, T., & Tibshirani, R. (2010). Regularization Paths for Generalized Linear Models via Coordinate Descent. Journal of Statistical Software, 33(1), 1–22.
[12] Friedman, J. H. (2001). Boosting a Weak Learning Algorithm by Majority. Greedy Function Approximation: A Gradient Boosting Machine, 29(5), 1189–1232.
[13] Guyon, I., Weston, J., Barnhill, S., & Vapnik, V. (2002). Gene selection for cancer classification using Support Vector Machines. Machine Learning, 46(1-3), 389–422.
[14] Ho, T. K. (1995). Random Decision Forests. Proceedings of 3rd International Conference on Document Analysis and Recognition, 278–282.
[15] Huang, S.Y. and Yu, F. and Tsaih, R. H. and Huang, Y. (2014). Resistant Learning on the Envelope Bulk for Identifying Anomalous Patterns. 2014 International Joint Conference on Neural Networks (IJCNN), 3303–3310.
[16] Schapire, R. E. (1990). The Strength of Weak Learnability. Machine Learning, 5, 197–227.
[17] Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society. Series B (Methodological), 58(1), 267–288.
[18] Ting, K.M. & Witten, I.H. (1997). Stacked generalization: when does it work?. Hamilton, New Zealand: University of Waikato, Department of Computer Science.
[19] Trivedi, S., Pardos, Z. A., & Heffernan, N. T. (2015). The Utility of Clustering in Prediction Tasks. ArXiv:1509.06163.
[20] Van der laan, M. J., Polley, E. C., & Hubbard, A. E. (2007). Super Learner. Statistical Applications in Genetics and Molecular Biology, 6(25).
[21] Wolpert, D. H. (1992). Stacked Generalization. Neural Networks, 5(2), 241–259.
[22] Zou, H., & Hastie, T. (2005). Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society. Series B (Statistical Methodology), 67(2), 301–320.
[23] 何睿婷,(2018)。基於異質集成學習方法的房價預測。通訊世界,10,pp.296-297。
[24] 吳晏榕,(2010)。房價指數應用在銀行資產重估之研究。未出版之碩士論文,政治大學,經濟學研究所,台北市。
[25] 洪淑娟、雷立芬,(2010)。根據中古屋、預售屋/新成屋房價與總體經濟變數互動關係之研究。臺灣銀行季刊,61(1),pp.155-167。
[26] 洪鴻智、張能政,(2006)。不動產估價人員之價值探索過程:估價程序與參考點的選擇。建築與規劃學報,7(1),pp.71-90。
[27] 郁嘉綾,(2018)。應用大數據於杭州市房地產價格模型之建立。未出版之碩士論文,政治大學,統計學研究所,台北市。
[28] 張曦方,(1994)。住宅樓層價差之探討–以台北市為例。未出版之碩士論文,政治大學,地政學研究所,台北市。
[29] 陳敬筌,(2019)。應用深度學習預測區域住房平均價格— 以台北市實價登錄為例。未出版之碩士論文,銘傳大學,資訊管理學系碩士在職專班,台北市。
[30] 陳樹衡、郭子文、棗厥庸,(2007)。以決策樹之迴歸樹建構住宅價格模型-臺灣地區之實證分析。住宅學報,16(1),pp.1-20。
[31] 馮世傑,(2014)。房價影響變數之探討-以台北市為例。未出版之碩士論文。東吳大學,國際貿易學研究所,台北市。
[32] 黃佳鈴、張金鶚, (2005)。從房地價格分離探討地價指數與公告土地現值評估。台灣土地研究;8(2),pp.73-106。
[33] 楊博文、曹布陽,(2017)。基於集成學習的房價預測模型。電腦知識與技術,13(29),pp.191-194。
[34] 蔡育政,(2009)。影響房地產價格因素之研究:以台中市北屯區、西屯區、南屯區、中區、東區為例。未出版之碩士論文,朝陽科技大學,財務金融研究所,台中市。
[35] 蔡育展,(2017)。機器學習與房地產估價。未出版之碩士論文,政治大學,資訊管理學研究所,台北市。
[36] 蔡瑞煌、高明志、張金鶚,(1999)。類神經網路應用於房地產估價之研究。住宅學報,8,pp.1-20。
[37] 賴碧瑩,(2007)。應用類神經網路於電腦輔助大量估價。住宅學報,16(2),pp.43-65。
[38] 謝明穎,(2017) 。運用機器學習方法建構房價預測視覺化平台。未出版之碩士論文。輔仁大學,統計資訊學系應用統計研究所,新北市。
dc.identifier.doi (DOI) 10.6814/NCCU202200343en_US