Publications-Theses

Article View/Open

Publication Export

Google ScholarTM

NCCU Library

Citation Infomation

Related Publications in TAIR

題名 股市趨勢預測之研究 -財經評論文本情感分析
Predict the trend in the stock by Sentiment analyzing financial posts
作者 蔡宇祥
Tsai, Yu Shiang
貢獻者 姜國輝
Johannes K. Chiang
蔡宇祥
Tsai, Yu Shiang
關鍵詞 情感分析
Word2vec
LDA主題模型
K-means
上海股價指數
日期 2016
上傳時間 22-Aug-2016 10:44:33 (UTC+8)
摘要 根據過去研究指出,社群網站上的貼文訊息會對群眾情緒造成影響,進而影響股市波動,故對於投資者而言,如果能快速分析大量社群網站的財經文本來推測投資情緒進而預測股市走勢,將可提升投資獲利。
     過去文本情感分析的研究中已證實監督式學習方法可以透過簡單量化的方式達到良好的分類效果,但監督式學習方法所使用的訓練資料集須有事先定義好的已知類別,故其有無法預期未知類別的限制,所以本研究透過深度學習方法,從巨量資料及裡抓出有關於股市之文章,並透過財經文本的混合監督式學習與非監督式學習之情感分析方法,透過非監督式學習對微博財經貼文進行文本主題判別、情緒指數計算與情緒傾向標注,並且透過監督式學習的方式,建立分類模型以預測上海指數走勢,最後配合視覺化工具作趨勢線圖分析,找出具有領先指標特性之主題。
     在實驗結果中,深度學習方面,本研究透過word2vec抓取有效之股市主題文章,有效篩選了需要分析之文本,主題模型方面,我們最後使用LDA作為本研究標註主題之方法,因為其文本數量大於議題詞數量造成TFIDF矩陣過於稀疏,造成Kmeans分群效果不佳,故後續採用LDA主題模型進行主題標注。情緒傾向標注方面,透過擴充後的情感詞集比起NTUSD有更好的詞性分數判斷效果,計算出的情緒指數之趨勢線能有效預測上海指數之趨勢。此外,並非所有主題模型之情緒指數皆具有領先特性,僅公司表現與上海指數之主題模型的情緒指數能提前反應上海指數趨勢,故本研究用此二主題之文本的情緒指數來建立分類模型。
     本研究透過比較情緒指數與單純指數指標分類模型的準確度,前者較後者高出7%的準確率。故證實了情感分析確實能有效提升上海指數趨勢預測準確度,幫助投資者增加股市報酬率。
參考文獻 [ 1 ] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation.Journal of Machine Learning Research, 3:993–1022,January 2003.
     [ 2 ] DeLong, J. B., A. Shleifer, L. H. Summers, and R. J. Waldmann, “Noise trader risk in financial markets,”Journal of Political Economy, 98,703-738, 1990
     [ 3 ] Feldman, Techniques and applications for sentiment analysis, 2013
     [ 4 ] Reality Check for the Chinese Microblog Space: A Random Sampling Approach,2012
     [ 5 ] Johan Bollen1, Huina Mao1, Xiao-Jun Zeng. Twitter mood predicts the stock market. 2010
     [ 6 ] Chaovalit and Zhou ,Movie Review Mining: a Comparison between Supervised and Unsupervised Classification Approaches,2005
     [ 7 ] Ahmad, K., Oliveira, P. C. F. D., Manomaisupat, P., Casey, M. & Taskaya, T. (2002). Description of events: An analysis of keywords and indexical names. Proceedings of the third international conference on language resources and
     evaluation, LREC 2002: Workshop on event modelling for multilingual document linking, 29-35
     [ 8 ] Liu, “Sentiment Analysis and Opinion Mining,” Synthesis Lectures on Human Language Technologies, vol. 5, no. 1, pp. 1–167, May 2012.
     [ 9 ] Pang and Lee. Opinion mining and sentiment analysis, 2008
     [ 10 ] Taboada, J. Brooke, M. Tofiloski, K. Voll, and M. Stede, “Lexicon-based Methods for Sentiment Analysis,” Comput. Linguist., vol. 37, no. 2, pp. 267–307, Jun. 2011.
     [ 11 ] How Big Data Can Transform Your Understanding Of Your Customers
     [ 12 ] Thorsten Joachims, SVM-Light Support Vector Machine, 2008
     [ 13 ] Zheng and Y. Tian, “Chinese Web Text Classification System Model Based on Naive Bayes,” in 2010 International Conference on E-Product E-Service and E-Entertainment (ICEEE), pp. 1–4, 2010
     [ 14 ] Support Vector Machines 簡介, 林宗勳,2015
     [ 15 ] 劉奕廷, 全文運用財經文本情感分析於台灣電子類股價指數趨勢預測之研究,2015
     [ 16 ] 林育龍, 對使用者評論之情感分析研究-以Google Play市集為例, 2014
     [ 17 ] 李啟菁,王正豪. “中文部落格文章之意見分析”, 2010
     [ 18 ] 郭俊桔、張育蓉,使用情緒分析於圖書館使用者滿意度之研究,2013
     [ 19 ] 游和正、黃挺豪、陳信希, 領域相關詞彙極性分析及文件情緒分類之研究,2013
     [ 20 ] 蕭瑞祥、姜青山, 部落格文章情感分析之研究,2012
     [ 21 ] 李謦哲,應用FFCA結合情感分析探勘Facebook對議題之評論-以台灣2014九合一選舉為例,2014
     [ 22 ] 鍾任明、李維平, 運用文字探勘於日內股價漲跌趨勢預測之研究,2007
     [ 23 ] 洪崇洋, 以LDA 和使用紀錄為基礎的線上電子書主題趨勢發掘方法, 2012
     [ 24 ] 王正豪,葉庭瑋, 基於意見詞修飾關係之微網誌情感分析技術,2013
     [ 25 ] 劉鵬,滕家雨. 基於Spark的大規模文本k-means並行聚類算法, 2014
     [ 26 ] 魏晶晶,吳曉吟. 電子商務產品評論多級情感分析的研究與實現, 2013
     [ 27 ] 以情緒為中心之情境資訊觀察與評估
     [ 28 ] 張士勛,以半導體產業為例-探討線性識別分析之最佳投資組合,2014
     [ 29 ] 以URL 資訊和TF-IDF 為主的網路釣魚信件偵測,朱怡俊,2009
     [ 30 ] 2015年中國股災,wiki,2015
     [ 31 ] 證交所世界排名,wiki,2011
     [ 32 ] 情感分析,wiki,2011
     [ 33 ] Twitter 能否预测股市?,數位時代,2013
     [ 34 ] 2013年Big Data市場規模,Wikibon,2013
     [ 35 ] TFIDF,wiki,2007
     [ 36 ] Lexalytics分析網友情感動向,協助品牌行銷策略,Find,2015
     [ 37 ] 龔建彰, 基於新聞字詞漲跌極性之股價趨勢分類預測, 2014
     [ 38 ] 張良杰. 巨量資料環境下之新聞主題暨輿情與股價關係之研究, 2014
     [ 39 ] 郭敏華, 如何測量投資人情緒?, 2009
     [ 40 ] 張日威,應用LDA進行Plurk主題分類及使用者情緒分析,2014
     [ 41 ] 黃運高,王妍,邱武松,向林泓,趙學良.基于K-means和TF-IDF的中文藥名聚類分析, 2014
描述 碩士
國立政治大學
資訊管理學系
103356002
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0103356002
資料類型 thesis
dc.contributor.advisor 姜國輝zh_TW
dc.contributor.advisor Johannes K. Chiangen_US
dc.contributor.author (Authors) 蔡宇祥zh_TW
dc.contributor.author (Authors) Tsai, Yu Shiangen_US
dc.creator (作者) 蔡宇祥zh_TW
dc.creator (作者) Tsai, Yu Shiangen_US
dc.date (日期) 2016en_US
dc.date.accessioned 22-Aug-2016 10:44:33 (UTC+8)-
dc.date.available 22-Aug-2016 10:44:33 (UTC+8)-
dc.date.issued (上傳時間) 22-Aug-2016 10:44:33 (UTC+8)-
dc.identifier (Other Identifiers) G0103356002en_US
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/100459-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 資訊管理學系zh_TW
dc.description (描述) 103356002zh_TW
dc.description.abstract (摘要) 根據過去研究指出,社群網站上的貼文訊息會對群眾情緒造成影響,進而影響股市波動,故對於投資者而言,如果能快速分析大量社群網站的財經文本來推測投資情緒進而預測股市走勢,將可提升投資獲利。
     過去文本情感分析的研究中已證實監督式學習方法可以透過簡單量化的方式達到良好的分類效果,但監督式學習方法所使用的訓練資料集須有事先定義好的已知類別,故其有無法預期未知類別的限制,所以本研究透過深度學習方法,從巨量資料及裡抓出有關於股市之文章,並透過財經文本的混合監督式學習與非監督式學習之情感分析方法,透過非監督式學習對微博財經貼文進行文本主題判別、情緒指數計算與情緒傾向標注,並且透過監督式學習的方式,建立分類模型以預測上海指數走勢,最後配合視覺化工具作趨勢線圖分析,找出具有領先指標特性之主題。
     在實驗結果中,深度學習方面,本研究透過word2vec抓取有效之股市主題文章,有效篩選了需要分析之文本,主題模型方面,我們最後使用LDA作為本研究標註主題之方法,因為其文本數量大於議題詞數量造成TFIDF矩陣過於稀疏,造成Kmeans分群效果不佳,故後續採用LDA主題模型進行主題標注。情緒傾向標注方面,透過擴充後的情感詞集比起NTUSD有更好的詞性分數判斷效果,計算出的情緒指數之趨勢線能有效預測上海指數之趨勢。此外,並非所有主題模型之情緒指數皆具有領先特性,僅公司表現與上海指數之主題模型的情緒指數能提前反應上海指數趨勢,故本研究用此二主題之文本的情緒指數來建立分類模型。
     本研究透過比較情緒指數與單純指數指標分類模型的準確度,前者較後者高出7%的準確率。故證實了情感分析確實能有效提升上海指數趨勢預測準確度,幫助投資者增加股市報酬率。
zh_TW
dc.description.tableofcontents 第一章、 概論 5
     1、 研究背景 5
     2、 研究動機 8
     3、 研究目的 9
     第二章、 文獻探討 10
     1、 情感分析 10
     1.1 情感分析的定義 10
     1.2 情感分析的方法 11
     1.3 情感分析與股價之相關性研究 13
     2、 Apache Spark 14
     3、 Word2Vec 16
     4、 主題模型(Sentiment Analysis) 18
     4.1 TF-IDF 18
     4.1 K-means 19
     4.2 Latent Dirichlet allocation(隱含狄利克雷分布) 19
     5、 文字分類(Text Classification) 23
     5.1 支援向量機(Support Vector Machine, SVM) 24
     第三章、 研究方法 26
     1、 資料蒐集(Data Collection) 28
     2、 文本前處理(Document Preprocessing) 29
     2.1 中文斷詞(Segmentation/Tokenization) 29
     2.2 詞性標注(Part-of-Speech Tagging) 29
     2.3 否定詞處理(Negation Process) 30
     2.4 詞性過濾(POS Filtering) 31
     2.5 字詞頻率計算 31
     3、 Word2vec 32
     4、 文本主題標註(Sentiment Orientation) 32
     4.1 找出文本熱門議題詞 32
     4.2 建立向量空間模型(Vector Space Model) 33
     4.3 透過K-means建立主題模型 35
     4.4 透過LDA建立主題模型 35
     4.5 判斷文本主題 36
     5、 情緒指標標註 36
     5.1 建立財經種子詞集 37
     5.2 情緒指數計算 38
     5.3 情緒傾向標註 38
     6、 分類模型建立與分類成效衡量(Classification) 39
     6.1 監督式學習的分類演算法 39
     6.2 分類的效果衡量 39
     7、 視覺化分析 41
     第四章、 研究結果 42
     1、 實驗資料擷取結果 42
     2、 文本類別標注結果 43
     3、 財經文本判斷結果 45
     4、 分類模型實驗結果 51
     5、 視覺化分析結果 51
     第五章、 結論與建議 57
     1、 結論 57
     2、 未來研究與建議 59
     參考文獻 60
zh_TW
dc.format.extent 2011393 bytes-
dc.format.mimetype application/pdf-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0103356002en_US
dc.subject (關鍵詞) 情感分析zh_TW
dc.subject (關鍵詞) Word2veczh_TW
dc.subject (關鍵詞) LDA主題模型zh_TW
dc.subject (關鍵詞) K-meanszh_TW
dc.subject (關鍵詞) 上海股價指數zh_TW
dc.title (題名) 股市趨勢預測之研究 -財經評論文本情感分析zh_TW
dc.title (題名) Predict the trend in the stock by Sentiment analyzing financial postsen_US
dc.type (資料類型) thesisen_US
dc.relation.reference (參考文獻) [ 1 ] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation.Journal of Machine Learning Research, 3:993–1022,January 2003.
     [ 2 ] DeLong, J. B., A. Shleifer, L. H. Summers, and R. J. Waldmann, “Noise trader risk in financial markets,”Journal of Political Economy, 98,703-738, 1990
     [ 3 ] Feldman, Techniques and applications for sentiment analysis, 2013
     [ 4 ] Reality Check for the Chinese Microblog Space: A Random Sampling Approach,2012
     [ 5 ] Johan Bollen1, Huina Mao1, Xiao-Jun Zeng. Twitter mood predicts the stock market. 2010
     [ 6 ] Chaovalit and Zhou ,Movie Review Mining: a Comparison between Supervised and Unsupervised Classification Approaches,2005
     [ 7 ] Ahmad, K., Oliveira, P. C. F. D., Manomaisupat, P., Casey, M. & Taskaya, T. (2002). Description of events: An analysis of keywords and indexical names. Proceedings of the third international conference on language resources and
     evaluation, LREC 2002: Workshop on event modelling for multilingual document linking, 29-35
     [ 8 ] Liu, “Sentiment Analysis and Opinion Mining,” Synthesis Lectures on Human Language Technologies, vol. 5, no. 1, pp. 1–167, May 2012.
     [ 9 ] Pang and Lee. Opinion mining and sentiment analysis, 2008
     [ 10 ] Taboada, J. Brooke, M. Tofiloski, K. Voll, and M. Stede, “Lexicon-based Methods for Sentiment Analysis,” Comput. Linguist., vol. 37, no. 2, pp. 267–307, Jun. 2011.
     [ 11 ] How Big Data Can Transform Your Understanding Of Your Customers
     [ 12 ] Thorsten Joachims, SVM-Light Support Vector Machine, 2008
     [ 13 ] Zheng and Y. Tian, “Chinese Web Text Classification System Model Based on Naive Bayes,” in 2010 International Conference on E-Product E-Service and E-Entertainment (ICEEE), pp. 1–4, 2010
     [ 14 ] Support Vector Machines 簡介, 林宗勳,2015
     [ 15 ] 劉奕廷, 全文運用財經文本情感分析於台灣電子類股價指數趨勢預測之研究,2015
     [ 16 ] 林育龍, 對使用者評論之情感分析研究-以Google Play市集為例, 2014
     [ 17 ] 李啟菁,王正豪. “中文部落格文章之意見分析”, 2010
     [ 18 ] 郭俊桔、張育蓉,使用情緒分析於圖書館使用者滿意度之研究,2013
     [ 19 ] 游和正、黃挺豪、陳信希, 領域相關詞彙極性分析及文件情緒分類之研究,2013
     [ 20 ] 蕭瑞祥、姜青山, 部落格文章情感分析之研究,2012
     [ 21 ] 李謦哲,應用FFCA結合情感分析探勘Facebook對議題之評論-以台灣2014九合一選舉為例,2014
     [ 22 ] 鍾任明、李維平, 運用文字探勘於日內股價漲跌趨勢預測之研究,2007
     [ 23 ] 洪崇洋, 以LDA 和使用紀錄為基礎的線上電子書主題趨勢發掘方法, 2012
     [ 24 ] 王正豪,葉庭瑋, 基於意見詞修飾關係之微網誌情感分析技術,2013
     [ 25 ] 劉鵬,滕家雨. 基於Spark的大規模文本k-means並行聚類算法, 2014
     [ 26 ] 魏晶晶,吳曉吟. 電子商務產品評論多級情感分析的研究與實現, 2013
     [ 27 ] 以情緒為中心之情境資訊觀察與評估
     [ 28 ] 張士勛,以半導體產業為例-探討線性識別分析之最佳投資組合,2014
     [ 29 ] 以URL 資訊和TF-IDF 為主的網路釣魚信件偵測,朱怡俊,2009
     [ 30 ] 2015年中國股災,wiki,2015
     [ 31 ] 證交所世界排名,wiki,2011
     [ 32 ] 情感分析,wiki,2011
     [ 33 ] Twitter 能否预测股市?,數位時代,2013
     [ 34 ] 2013年Big Data市場規模,Wikibon,2013
     [ 35 ] TFIDF,wiki,2007
     [ 36 ] Lexalytics分析網友情感動向,協助品牌行銷策略,Find,2015
     [ 37 ] 龔建彰, 基於新聞字詞漲跌極性之股價趨勢分類預測, 2014
     [ 38 ] 張良杰. 巨量資料環境下之新聞主題暨輿情與股價關係之研究, 2014
     [ 39 ] 郭敏華, 如何測量投資人情緒?, 2009
     [ 40 ] 張日威,應用LDA進行Plurk主題分類及使用者情緒分析,2014
     [ 41 ] 黃運高,王妍,邱武松,向林泓,趙學良.基于K-means和TF-IDF的中文藥名聚類分析, 2014
zh_TW