學術產出-Theses

Article View/Open

Publication Export

Google ScholarTM

政大圖書館

Citation Infomation

  • No doi shows Citation Infomation
題名 應用文件探勘技術於概念股股價共同移動之研究
A study of using text mining on the co-movement of concept stock price
作者 吳振和
Wu, Cheng Ho
貢獻者 楊建民
吳振和
Wu, Cheng Ho
關鍵詞 概念股
文字探勘
關聯規則
日期 2011
上傳時間 4-Sep-2013 16:59:14 (UTC+8)
摘要 證券市場在台灣為相當熱門的投資標的,台灣屬於淺碟式市場,股市投資者以散戶居多,且資訊來源大多為報紙、電視、網路…等媒體,因此外界的訊息易於影響股價波動。近年來股票分類方式除了傳統的產業類別分類,衍生出了一種新的分類方式-概念股。概念股是某種被看好之產品或產業甚至政策相關個股的集合,概念下的股票通常具有相當大的話題性,因此會引發報章媒體的報導,引發投資者的關注。基於以上原因,可推論概念相關的報導會對概念相關個股的漲跌有一定影響。因此本研究以消息面的資訊作為基礎,並以文字探勘技術加以分析,以聚集出人們有興趣概念所相關之個股。
本研究以聯合知識庫2011年1月至4月共86,579篇新聞為資料來源,以iPad2概念為標的,透過文字探勘的技術找出各新聞內容的特徵,並透過關聯分析對新聞做分析,從中找出概念及個股之間的關聯規則,藉此找出和概念相關之個股。接著本研究從台灣證券交易所網站取得2011年2月至5月所有交易日大盤之上漲、下跌個股數量,以其較大值與兩數和相除計算其股價共同移動程度,並取得其累積報酬率與本研究所選出之概念股進行比較。
在研究結果中,本研究方法所選出之概念股在門檻值為0.2時在2月至5月股價共同移動程度分別為79.3%、73.6%、70.2%、68.1%,皆高於MoneyDJ選出之概念股及大盤同期間之股價共同移動程度。而以成對樣本T檢定在顯著水準95%下,顯示本研究選出之概念股顯著有股價共同移動現象。因此也證實了藉由文字探勘技術及關聯規則,能從雜亂無序的新聞中發掘出人們有興趣之概念所相關的個股,以提供投資者做更深入分析。
In Taiwan stock market, most of investors are individual, as the result, the external information will affect the stock price. Concept stock is an aggregation of many stocks on a relative basis such as industry or particular product. It is usually makes the topic to mass media for report, therefore the investor will pay close attention to it. There are many websites offering digital news so we can obtain easily these from the Internet and analyze them. This paper proposes an method to find stocks that relate to the concept from the digital news.
In this paper, we collected the news from Udndata, using the text mining technique to analyze these data and performing association analysis’s algorithm to find out the association rule between stocks and concept. Then, we use statistical test to test the co-movement pattern between these Concept Stocks to the Taiwan Stock Index. The result illustrate text mining technique is able to find the relation between stocks and concept and proofs the Concept Stocks have co-movement pattern.
參考文獻 英文文獻
1. Agrawal, R., Srikant, R., & others. (1994). Fast algorithms for mining association rules. Proc. 20th Int. Conf. Very Large Data Bases, VLDB (Vol. 1215, pp. 487–499).
2. Chen, K. J., & Liu, S. H. (1992). Word identification for Mandarin Chinese sentences. Proceedings of the 14th conference on Computational linguistics-Volume 1 (pp. 101–107).
3. Fama, E. F. (1970). Efficient capital markets: A review of theory and empirical work. The journal of Finance, 25(2), 383–417.
4. Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), 27–34.
5. Han, J., & Kamber, M. (2006). Data mining: concepts and techniques. Morgan Kaufmann.
6. Heaps, H. S. (1978). Information retrieval: Computational and theoretical aspects. Academic Press, Inc. Orlando, FL, USA.
7. Korfhage, R. R. (2008). Information storage and retrieval.
8. Kowalski, G. (1997). Information retrieval systems: theory and implementation (Vol. 1). Springer.
9. Nie, J. Y., Brisebois, M., & Ren, X. (1996). On Chinese text retrieval. Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 225–233).

10. Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5), 513–523.
11. Salton, G., & McGill, M. J. (1986). Introduction to modern information retrieval.
12. Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613–620.
13. Samuelson, P. (1965). Proof that properly anticipated prices fluctuate randomly. Management Review, 6(2), 41–49.
14. Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1), 1–47.
15. Sproat, R., & Shih, C. (1990). A statistical method for finding word boundaries in Chinese text. Computer Processing of Chinese and Oriental Languages, 4(4), 336–351.
16. Sullivan, D. (2001). Document warehousing and text mining: techniques for improving business operations, marketing and sales. Wiley, New York.
17. Zipf, G. K. (1949). Human behavior and the principle of least effort.
中文文獻
1. 蔡明月,2003,資訊計量學與文獻特性,台北市:國立編譯館。
2. 丁一賢,陳牧言,2005,資料探勘,滄海書局出版,台中市,中華民國。
3. 王美淳,2003,利用共生詞彙特性發展一個二階文件群集法,中原大學資訊管理學系碩士論文。
4. 吳恩典,2007,結合本體論以及關聯法則於查詢擴展之研究,國立成功大學資訊管理研究所碩士論文。
5. 李春淋,2010,個股新聞對股價影像之研究-以台股為例,輔仁大學應用統計研究所碩士論文。
6. 喻欣凱,2008,運用支援向量機與文字探勘於股價漲跌趨勢之預測,輔仁大學資訊管理學系碩士論文。
7. 黃孝文,2010,雲端運算服務環境下運用文獻探勘於語意網路註解網頁文件分析之研究,國立政治大學資訊管理學系碩士論文。
8. 吳修辰,2006,熱錢重新布局 年底前至少賺二○%,商業周刊第972期。
9. 鍾明璇,2002,應用關聯規則技術有效輔助以向量空間模型為基礎之文件群集方法,中原大學資訊管理學系碩士論文。
10. 林章德,2000,上市公司重大投資宣告對股價影響之研究,東海大學管理研究所碩士論文。
11. 吳真蕙,2000,專業性報紙頭版新聞對股票價量的影響,中原大學會計系碩士論文。
12. 林澄源,2008,概念股宣告對股價異常報酬之研究,開南大學企業與創業管理學系碩士論文
13. 張獻文,2007概念股之共同移動研究 -以任天堂遊戲機「Wii」概念股為例,雲林科技大學企業管理系碩士論文
14. 鄭雅仁,1994,台灣股市弱式效率市場之再驗證,國立台灣大學財務金融學系碩士論文
15. 張金桂,1981,台灣股票巿場股價行為之實證研究,大同大學事業經營研究所碩士論文
16. 陳惠純,1998,臺灣店頭市場效率性檢定,逢甲大學經濟學研究所碩士論文
17. 陳建志,2002,興櫃股票異常報酬與短期過度反應之研究,中華大學經營管理研究所碩士論文
18. 倪晶瑛,1990,股票交易成本與股價之相關性研究─以台灣股票市場為實證,國立中興大學企業管理研究所碩士論文

19. 陳尚群,1989,從股票本益檢定半強式效率資本市場-以台灣股票市場為例,國立台灣大學商學研究所碩士論文
20. 王慧雯,1998,晚報推薦資訊對臺灣股票市場影響之研究,國立成功大學工業管理學系碩士論文
21. 林章德,2000,上市公司重大投資宣告對股價影響之研究,東海大學管理研究所碩士論文
網路資料
1. CKIP 斷詞系統,中央研究院(2010),取自 http://ckipsvr.iis.sinica.edu.tw/。
2. MoneyDJ之概念股,MoneyDJ(2011) , 取自http://www.moneydj.com/。
3. Yahoo API, Yahoo API (2011),http://tw.developer.yahoo.com/cas。
描述 碩士
國立政治大學
資訊管理研究所
98356012
100
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0098356012
資料類型 thesis
dc.contributor.advisor 楊建民zh_TW
dc.contributor.author (Authors) 吳振和zh_TW
dc.contributor.author (Authors) Wu, Cheng Hoen_US
dc.creator (作者) 吳振和zh_TW
dc.creator (作者) Wu, Cheng Hoen_US
dc.date (日期) 2011en_US
dc.date.accessioned 4-Sep-2013 16:59:14 (UTC+8)-
dc.date.available 4-Sep-2013 16:59:14 (UTC+8)-
dc.date.issued (上傳時間) 4-Sep-2013 16:59:14 (UTC+8)-
dc.identifier (Other Identifiers) G0098356012en_US
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/60216-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 資訊管理研究所zh_TW
dc.description (描述) 98356012zh_TW
dc.description (描述) 100zh_TW
dc.description.abstract (摘要) 證券市場在台灣為相當熱門的投資標的,台灣屬於淺碟式市場,股市投資者以散戶居多,且資訊來源大多為報紙、電視、網路…等媒體,因此外界的訊息易於影響股價波動。近年來股票分類方式除了傳統的產業類別分類,衍生出了一種新的分類方式-概念股。概念股是某種被看好之產品或產業甚至政策相關個股的集合,概念下的股票通常具有相當大的話題性,因此會引發報章媒體的報導,引發投資者的關注。基於以上原因,可推論概念相關的報導會對概念相關個股的漲跌有一定影響。因此本研究以消息面的資訊作為基礎,並以文字探勘技術加以分析,以聚集出人們有興趣概念所相關之個股。
本研究以聯合知識庫2011年1月至4月共86,579篇新聞為資料來源,以iPad2概念為標的,透過文字探勘的技術找出各新聞內容的特徵,並透過關聯分析對新聞做分析,從中找出概念及個股之間的關聯規則,藉此找出和概念相關之個股。接著本研究從台灣證券交易所網站取得2011年2月至5月所有交易日大盤之上漲、下跌個股數量,以其較大值與兩數和相除計算其股價共同移動程度,並取得其累積報酬率與本研究所選出之概念股進行比較。
在研究結果中,本研究方法所選出之概念股在門檻值為0.2時在2月至5月股價共同移動程度分別為79.3%、73.6%、70.2%、68.1%,皆高於MoneyDJ選出之概念股及大盤同期間之股價共同移動程度。而以成對樣本T檢定在顯著水準95%下,顯示本研究選出之概念股顯著有股價共同移動現象。因此也證實了藉由文字探勘技術及關聯規則,能從雜亂無序的新聞中發掘出人們有興趣之概念所相關的個股,以提供投資者做更深入分析。
zh_TW
dc.description.abstract (摘要) In Taiwan stock market, most of investors are individual, as the result, the external information will affect the stock price. Concept stock is an aggregation of many stocks on a relative basis such as industry or particular product. It is usually makes the topic to mass media for report, therefore the investor will pay close attention to it. There are many websites offering digital news so we can obtain easily these from the Internet and analyze them. This paper proposes an method to find stocks that relate to the concept from the digital news.
In this paper, we collected the news from Udndata, using the text mining technique to analyze these data and performing association analysis’s algorithm to find out the association rule between stocks and concept. Then, we use statistical test to test the co-movement pattern between these Concept Stocks to the Taiwan Stock Index. The result illustrate text mining technique is able to find the relation between stocks and concept and proofs the Concept Stocks have co-movement pattern.
en_US
dc.description.tableofcontents 第一章 緒論 1
第一節 研究背景與動機 1
第二節 研究目的 3
第二章 文獻探討 4
第一節 台灣股票市場相關研究 4
1.1 台灣股市現況 4
1.2 淺碟形市場 4
1.3 投資人以散戶為主 5
第二節 效率市場假說之相關研究 7
2.1 效率市場假說 7
2.2 台灣股市之效率市場研究 8
第三節 概念股相關研究 10
第四節 文字探勘 12
4.1 文件表示法 13
4.2 布林模式 14
4.3 向量模式 15
4.4 中文斷詞處理 17
第五節 關聯規則 19
5.1 關聯規則的種類 20
5.2 關聯規則的評估指標 21
第三章 研究設計 22
第一節 研究架構與步驟 22
1.1 資料蒐集 23
1.2 內容萃取 23
1.3 斷詞處理 23
1.4 內容過濾及索引建置 24
1.5 關聯分析 26
1.6 雜訊過濾 28
第二節 研究資料與統計檢定 29
2.1 研究資料 29
2.2 股價共同移動程度檢定 30
2.3 累積報酬率比較 34
2.4 報酬率之檢定 35
第四章 實驗結果 37
第一節 不同信心程度概念股 37
第二節 股價共同移動程度之比較 41
第三節 股價共同移動程度之檢定 44
第四節 累積報酬率之比較 47
第五節 報酬率檢定 49
第五章 結論與建議 51
第一節 結論 51
第二節 建議及未來方向 53
參考文獻 54
zh_TW
dc.format.extent 1666383 bytes-
dc.format.mimetype application/pdf-
dc.language.iso en_US-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0098356012en_US
dc.subject (關鍵詞) 概念股zh_TW
dc.subject (關鍵詞) 文字探勘zh_TW
dc.subject (關鍵詞) 關聯規則zh_TW
dc.title (題名) 應用文件探勘技術於概念股股價共同移動之研究zh_TW
dc.title (題名) A study of using text mining on the co-movement of concept stock priceen_US
dc.type (資料類型) thesisen
dc.relation.reference (參考文獻) 英文文獻
1. Agrawal, R., Srikant, R., & others. (1994). Fast algorithms for mining association rules. Proc. 20th Int. Conf. Very Large Data Bases, VLDB (Vol. 1215, pp. 487–499).
2. Chen, K. J., & Liu, S. H. (1992). Word identification for Mandarin Chinese sentences. Proceedings of the 14th conference on Computational linguistics-Volume 1 (pp. 101–107).
3. Fama, E. F. (1970). Efficient capital markets: A review of theory and empirical work. The journal of Finance, 25(2), 383–417.
4. Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), 27–34.
5. Han, J., & Kamber, M. (2006). Data mining: concepts and techniques. Morgan Kaufmann.
6. Heaps, H. S. (1978). Information retrieval: Computational and theoretical aspects. Academic Press, Inc. Orlando, FL, USA.
7. Korfhage, R. R. (2008). Information storage and retrieval.
8. Kowalski, G. (1997). Information retrieval systems: theory and implementation (Vol. 1). Springer.
9. Nie, J. Y., Brisebois, M., & Ren, X. (1996). On Chinese text retrieval. Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 225–233).

10. Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5), 513–523.
11. Salton, G., & McGill, M. J. (1986). Introduction to modern information retrieval.
12. Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613–620.
13. Samuelson, P. (1965). Proof that properly anticipated prices fluctuate randomly. Management Review, 6(2), 41–49.
14. Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1), 1–47.
15. Sproat, R., & Shih, C. (1990). A statistical method for finding word boundaries in Chinese text. Computer Processing of Chinese and Oriental Languages, 4(4), 336–351.
16. Sullivan, D. (2001). Document warehousing and text mining: techniques for improving business operations, marketing and sales. Wiley, New York.
17. Zipf, G. K. (1949). Human behavior and the principle of least effort.
中文文獻
1. 蔡明月,2003,資訊計量學與文獻特性,台北市:國立編譯館。
2. 丁一賢,陳牧言,2005,資料探勘,滄海書局出版,台中市,中華民國。
3. 王美淳,2003,利用共生詞彙特性發展一個二階文件群集法,中原大學資訊管理學系碩士論文。
4. 吳恩典,2007,結合本體論以及關聯法則於查詢擴展之研究,國立成功大學資訊管理研究所碩士論文。
5. 李春淋,2010,個股新聞對股價影像之研究-以台股為例,輔仁大學應用統計研究所碩士論文。
6. 喻欣凱,2008,運用支援向量機與文字探勘於股價漲跌趨勢之預測,輔仁大學資訊管理學系碩士論文。
7. 黃孝文,2010,雲端運算服務環境下運用文獻探勘於語意網路註解網頁文件分析之研究,國立政治大學資訊管理學系碩士論文。
8. 吳修辰,2006,熱錢重新布局 年底前至少賺二○%,商業周刊第972期。
9. 鍾明璇,2002,應用關聯規則技術有效輔助以向量空間模型為基礎之文件群集方法,中原大學資訊管理學系碩士論文。
10. 林章德,2000,上市公司重大投資宣告對股價影響之研究,東海大學管理研究所碩士論文。
11. 吳真蕙,2000,專業性報紙頭版新聞對股票價量的影響,中原大學會計系碩士論文。
12. 林澄源,2008,概念股宣告對股價異常報酬之研究,開南大學企業與創業管理學系碩士論文
13. 張獻文,2007概念股之共同移動研究 -以任天堂遊戲機「Wii」概念股為例,雲林科技大學企業管理系碩士論文
14. 鄭雅仁,1994,台灣股市弱式效率市場之再驗證,國立台灣大學財務金融學系碩士論文
15. 張金桂,1981,台灣股票巿場股價行為之實證研究,大同大學事業經營研究所碩士論文
16. 陳惠純,1998,臺灣店頭市場效率性檢定,逢甲大學經濟學研究所碩士論文
17. 陳建志,2002,興櫃股票異常報酬與短期過度反應之研究,中華大學經營管理研究所碩士論文
18. 倪晶瑛,1990,股票交易成本與股價之相關性研究─以台灣股票市場為實證,國立中興大學企業管理研究所碩士論文

19. 陳尚群,1989,從股票本益檢定半強式效率資本市場-以台灣股票市場為例,國立台灣大學商學研究所碩士論文
20. 王慧雯,1998,晚報推薦資訊對臺灣股票市場影響之研究,國立成功大學工業管理學系碩士論文
21. 林章德,2000,上市公司重大投資宣告對股價影響之研究,東海大學管理研究所碩士論文
網路資料
1. CKIP 斷詞系統,中央研究院(2010),取自 http://ckipsvr.iis.sinica.edu.tw/。
2. MoneyDJ之概念股,MoneyDJ(2011) , 取自http://www.moneydj.com/。
3. Yahoo API, Yahoo API (2011),http://tw.developer.yahoo.com/cas。
zh_TW