Publications-Theses

Article View/Open

Publication Export

Google ScholarTM

NCCU Library

Citation Infomation

Related Publications in TAIR

題名 以深度學習實作情感分析於台灣股價指數趨勢之研究—以光電類股為例
Applying deep learning to sentiment analysis for prediction of Taiwan Optoelectronic Index trend
作者 黃彥霖
Huang, Yen Lin
貢獻者 姜國輝<br>季延平
黃彥霖
Huang, Yen Lin
關鍵詞 情感分析
LDA主題模型
支援向量機
長短期記憶網路
Sentimental analysis
LDA
SVM
LSTM
日期 2018
上傳時間 27-Jul-2018 11:40:24 (UTC+8)
摘要 光電是一門結合光學、電子與電機的技術,以光電技術為核心,合成各類零組件、設備,並廣泛應用於通訊、生化、醫療、工業、能源等各種領域。近年來台灣的精密光學元件發展快速,受惠於智慧型手機興起,帶動了台灣光電產業發展。據過往研究指出,網路上的文本訊息會對群眾情緒造成影響,進而影響股價波動,因此若能將網路上大量財經文本快速分析,來推測投資大眾情緒,進而預測走勢,可以幫助投資者增加其獲利。為檢驗新聞情緒對於價格預測的重要性,本研究嘗試使用混和非監督式學習與監督式學習的方式進行實驗模型的建立。

在非監督式學習方面,本研究利用LDA主題模型,將光電類股之財經新聞文本,以進行主題分群。將各主題之文本,藉由比對情感詞集的方式進行情緒指數之計算,藉此找到各文本的情緒傾向。接著利用視覺化的方式,找出對後續分類模型有所助益的領先指標特性之主題。

在監督式學習方面,本研究分別建立SVM分類模型與LSTM神經網路分類模型,針對光電類股的財經新聞文本進行情感分析,並與單純使用技術指標之分類模型做比較。實驗結果發現,結合技術指標與情緒指數之準確率,SVM模型約為70%,神經網路模型約為60%。在股價漲跌分類方面,SVM模型優於LSTM分類模型,但不論是使用SVM模型或是LSTM模型,混和技術指標與情緒指數之模型在準確率上都高於單純只用技術指標之模型,前者較後者可提升多達7%之準確率,顯示情感分析確實能有效提升光電類股指數趨勢模型之準確度。
The optoelectronic is a technology that combines optics and electronics. In recent years, Taiwan`s precision optical components have developed rapidly, benefiting from the rise of smart phones, which has driven the development of Taiwan`s optoelectronic industry. According to past studies, text documents on the Internet will affect the mood of the investors, and then affect stock price indirectly. For investors, it is important to know how to analyze the potential emotion in text documents and use it to predict the stock trend. In order to test the importance of text emotions for price prediction, this research established a model that mixed unsupervised learning and supervised learning.

In the part of unsupervised learning, this research used the LDA model to assign documents to topics. Next, calculated the sentiment index to find the sentiment tendency of each documents. Then this research used the visualization to find the topic that was probably a leading indicator and helpful to classification model.

In the part of supervised learning, this research established the SVM model and the LSTM neural network model respectively. The result showed that, mixed with technical indicators and sentiment index, the accuracy of the SVM model was about 70%, and that of the neural network model was about 60%. In classification, the SVM model was better than the LSTM classification model, but in both of the SVM model and the LSTM model, the accuracy of the model that included the sentiment index and technical index was higher than that which included only technical index. The former could improve the accuracy by up to 7% compared with the latter, showing that sentiment analysis was able to improve the accuracy of the prediction of Optoelectronics stock index trend effectively.
參考文獻 [ 1 ] 王正豪, & 李啟菁. (2010). 中文部落格文章之意見分析. 國立台北科技大學資訊工程研究所碩士論文,
[ 2 ] 邱世芳(2008)。台灣地區光電產業之廠商衍生與空間擴散。成功大學都市計劃學系碩士論文
[ 3 ] 李啟菁. (2010). 中文部落格文章之意見分析. 臺北科技大學資訊工程系研究所學位論文, 1-44.
[ 4 ] 林育龍. (2014). 對使用者評論之情感分析研究-以 Google Play 市集為例
[ 5 ] 洪崇洋. (2012). LDA 和使用紀錄為基礎的線上電子書主題趨勢發掘方法. 國立中山大學資訊管理所碩士論文
[ 6 ] 張日威. (2014). 應用LDA進行Plurk主題分類及使用者情緒分析. 國立雲林科技大學資訊管理所碩士論文
[ 7 ] 雷祖強, 周天穎, 萬絢, 楊龍士, & 許晉嘉. (2007). 空間特徵分類器支援向量機之研究. Journal of Photogrammetry and Remote Sensing, 12(2), 145-163.
[ 8 ] 劉吉軒, & 吳建良. (2007). 以情緒為中心之情境資訊觀察與評估. Paper presented at the NCS全國計算機會議.
[ 9 ] 劉羿廷. (2015). 運用財經文本情感分析於台灣電子類股價指數趨勢預測之研究
[ 10 ] 蕭昱維. (2014). 基於多階 LDA 技術尋找 Twitter 文章的隱含主題之研究. 樹德科技大學資訊工程系碩士班學位論文, 1-47.
[ 11 ] Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.
[ 12 ] Boser, B. E., Guyon, I. M., & Vapnik, V. N. (1992, July). A training algorithm for optimal margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory (pp. 144-152). ACM.
[ 13 ] Griffiths, T. L., & Steyvers, M. (2004). Finding scientific topics. Proceedings of the National academy of Sciences, 101, 5228-5235.
[ 14 ] Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.
[ 15 ] Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis lectures on human language technologies, 5(1), 1-167.
[ 16 ] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
[ 17 ] McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, 5(4), 115-133.
[ 18 ] Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. nature, 323(6088), 533.
描述 碩士
國立政治大學
資訊管理學系
105356035
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0105356035
資料類型 thesis
dc.contributor.advisor 姜國輝<br>季延平zh_TW
dc.contributor.author (Authors) 黃彥霖zh_TW
dc.contributor.author (Authors) Huang, Yen Linen_US
dc.creator (作者) 黃彥霖zh_TW
dc.creator (作者) Huang, Yen Linen_US
dc.date (日期) 2018en_US
dc.date.accessioned 27-Jul-2018 11:40:24 (UTC+8)-
dc.date.available 27-Jul-2018 11:40:24 (UTC+8)-
dc.date.issued (上傳時間) 27-Jul-2018 11:40:24 (UTC+8)-
dc.identifier (Other Identifiers) G0105356035en_US
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/118938-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 資訊管理學系zh_TW
dc.description (描述) 105356035zh_TW
dc.description.abstract (摘要) 光電是一門結合光學、電子與電機的技術,以光電技術為核心,合成各類零組件、設備,並廣泛應用於通訊、生化、醫療、工業、能源等各種領域。近年來台灣的精密光學元件發展快速,受惠於智慧型手機興起,帶動了台灣光電產業發展。據過往研究指出,網路上的文本訊息會對群眾情緒造成影響,進而影響股價波動,因此若能將網路上大量財經文本快速分析,來推測投資大眾情緒,進而預測走勢,可以幫助投資者增加其獲利。為檢驗新聞情緒對於價格預測的重要性,本研究嘗試使用混和非監督式學習與監督式學習的方式進行實驗模型的建立。

在非監督式學習方面,本研究利用LDA主題模型,將光電類股之財經新聞文本,以進行主題分群。將各主題之文本,藉由比對情感詞集的方式進行情緒指數之計算,藉此找到各文本的情緒傾向。接著利用視覺化的方式,找出對後續分類模型有所助益的領先指標特性之主題。

在監督式學習方面,本研究分別建立SVM分類模型與LSTM神經網路分類模型,針對光電類股的財經新聞文本進行情感分析,並與單純使用技術指標之分類模型做比較。實驗結果發現,結合技術指標與情緒指數之準確率,SVM模型約為70%,神經網路模型約為60%。在股價漲跌分類方面,SVM模型優於LSTM分類模型,但不論是使用SVM模型或是LSTM模型,混和技術指標與情緒指數之模型在準確率上都高於單純只用技術指標之模型,前者較後者可提升多達7%之準確率,顯示情感分析確實能有效提升光電類股指數趨勢模型之準確度。
zh_TW
dc.description.abstract (摘要) The optoelectronic is a technology that combines optics and electronics. In recent years, Taiwan`s precision optical components have developed rapidly, benefiting from the rise of smart phones, which has driven the development of Taiwan`s optoelectronic industry. According to past studies, text documents on the Internet will affect the mood of the investors, and then affect stock price indirectly. For investors, it is important to know how to analyze the potential emotion in text documents and use it to predict the stock trend. In order to test the importance of text emotions for price prediction, this research established a model that mixed unsupervised learning and supervised learning.

In the part of unsupervised learning, this research used the LDA model to assign documents to topics. Next, calculated the sentiment index to find the sentiment tendency of each documents. Then this research used the visualization to find the topic that was probably a leading indicator and helpful to classification model.

In the part of supervised learning, this research established the SVM model and the LSTM neural network model respectively. The result showed that, mixed with technical indicators and sentiment index, the accuracy of the SVM model was about 70%, and that of the neural network model was about 60%. In classification, the SVM model was better than the LSTM classification model, but in both of the SVM model and the LSTM model, the accuracy of the model that included the sentiment index and technical index was higher than that which included only technical index. The former could improve the accuracy by up to 7% compared with the latter, showing that sentiment analysis was able to improve the accuracy of the prediction of Optoelectronics stock index trend effectively.
en_US
dc.description.tableofcontents 第一章 概論 1
第一節 研究背景 1
第二節 研究動機 2
第三節 研究目的 3
第二章 文獻探討 4
第一節 情感分析 4
第二節 隱含狄利克雷分佈(LDA) 4
第三節 支援向量機(SVM) 6
第四節 Word2vec模型 7
第五節 深度學習(Deep Learning) 8
一、 神經網路 8
二、 遞歸神經網絡(RNN) 10
三、 長短期記憶網路(LSTM) 11
第三章 研究方法 13
第一節 資料蒐集 13
第二節 文本前處理 14
一、 中文斷詞 14
二、 詞性標注 15
三、 否定詞處理 15
四、 停用字過濾 15
五、 詞性過濾 15
第三節 文本主題標注 15
一、 建立LDA主題模型 15
二、 判斷文本主題 16
第四節 情緒傾向標注 16
一、 建立情感詞集 16
二、 情緒指數計算 17
第五節 建立分類模型 17
一、 SVM分類模型 17
二、 LSTM 神經網路模型 18
三、 技術指標與間接情緒指標 19
四、 分類效果驗證 20
第四章 實驗結果與討論 22
第一節 財經文本資料蒐集結果 22
第二節 文本主題標注結果 22
一、 詞向量訓練結果 22
二、 LDA主題模型 24
三、 主題標注結果 25
第三節 情緒傾向標注結果 25
第四節 視覺化分析 26
第五節 分類模型結果 28
一、 SVM分類模型結果 29
二、 神經網路分類模型結果 30
三、 分類模型討論 32
第五章 研究結論與建議 33
第六章 參考文獻 35
zh_TW
dc.format.extent 2343551 bytes-
dc.format.mimetype application/pdf-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0105356035en_US
dc.subject (關鍵詞) 情感分析zh_TW
dc.subject (關鍵詞) LDA主題模型zh_TW
dc.subject (關鍵詞) 支援向量機zh_TW
dc.subject (關鍵詞) 長短期記憶網路zh_TW
dc.subject (關鍵詞) Sentimental analysisen_US
dc.subject (關鍵詞) LDAen_US
dc.subject (關鍵詞) SVMen_US
dc.subject (關鍵詞) LSTMen_US
dc.title (題名) 以深度學習實作情感分析於台灣股價指數趨勢之研究—以光電類股為例zh_TW
dc.title (題名) Applying deep learning to sentiment analysis for prediction of Taiwan Optoelectronic Index trenden_US
dc.type (資料類型) thesisen_US
dc.relation.reference (參考文獻) [ 1 ] 王正豪, & 李啟菁. (2010). 中文部落格文章之意見分析. 國立台北科技大學資訊工程研究所碩士論文,
[ 2 ] 邱世芳(2008)。台灣地區光電產業之廠商衍生與空間擴散。成功大學都市計劃學系碩士論文
[ 3 ] 李啟菁. (2010). 中文部落格文章之意見分析. 臺北科技大學資訊工程系研究所學位論文, 1-44.
[ 4 ] 林育龍. (2014). 對使用者評論之情感分析研究-以 Google Play 市集為例
[ 5 ] 洪崇洋. (2012). LDA 和使用紀錄為基礎的線上電子書主題趨勢發掘方法. 國立中山大學資訊管理所碩士論文
[ 6 ] 張日威. (2014). 應用LDA進行Plurk主題分類及使用者情緒分析. 國立雲林科技大學資訊管理所碩士論文
[ 7 ] 雷祖強, 周天穎, 萬絢, 楊龍士, & 許晉嘉. (2007). 空間特徵分類器支援向量機之研究. Journal of Photogrammetry and Remote Sensing, 12(2), 145-163.
[ 8 ] 劉吉軒, & 吳建良. (2007). 以情緒為中心之情境資訊觀察與評估. Paper presented at the NCS全國計算機會議.
[ 9 ] 劉羿廷. (2015). 運用財經文本情感分析於台灣電子類股價指數趨勢預測之研究
[ 10 ] 蕭昱維. (2014). 基於多階 LDA 技術尋找 Twitter 文章的隱含主題之研究. 樹德科技大學資訊工程系碩士班學位論文, 1-47.
[ 11 ] Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.
[ 12 ] Boser, B. E., Guyon, I. M., & Vapnik, V. N. (1992, July). A training algorithm for optimal margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory (pp. 144-152). ACM.
[ 13 ] Griffiths, T. L., & Steyvers, M. (2004). Finding scientific topics. Proceedings of the National academy of Sciences, 101, 5228-5235.
[ 14 ] Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.
[ 15 ] Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis lectures on human language technologies, 5(1), 1-167.
[ 16 ] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
[ 17 ] McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, 5(4), 115-133.
[ 18 ] Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. nature, 323(6088), 533.
zh_TW
dc.identifier.doi (DOI) 10.6814/THE.NCCU.MIS.007.2018.A05-