學術產出-學位論文
文章檢視/開啟
書目匯出
-
題名 應用文本主題與關係探勘於多文件自動摘要方法之研究:以電影評論文章為例
Application of text topic and relationship mining for multi-document summarization: using movie reviews as an example作者 林孟儀 貢獻者 楊建民
林孟儀關鍵詞 文字探勘
多文件自動摘要
LDA主題模型
主題關係地圖
Text mining
Multi-document summarization
LDA Topic Model
Text relationship map日期 2017 上傳時間 31-七月-2017 10:59:24 (UTC+8) 摘要 由於網際網路的普及造成資訊量愈來愈大,在資訊的搜尋、整理與閱讀上會耗費許多時間,因此本研究提出一應用文本主題及關係探勘的方法,將多份文件自動生成一篇摘要,以幫助使用者能降低資訊的閱讀時間,並能快速理解文件所欲表達之意涵。本研究以電影評論文章為例,結合文章結構的概念,將影評摘要分為「電影資訊」、「電影劇情介紹」及「心得結論」三部分,其中「電影資訊」及「心得結論」為透過本研究建置之電影領域相關詞庫比對得出。接著將餘下之段落歸屬於「電影劇情介紹」,並透過LDA主題模型將段落分群,再運用主題關係地圖的概念挑選各群之代表段落並排序,最後將各段落去除連接詞及將代名詞還原為其所指之主詞,以形成一篇列點式影評摘要。研究結果顯示,本研究所實驗之三部電影,產生之摘要能涵蓋較多的資訊內容,提升了摘要之多樣性,在與最佳範本摘要的相似度比對上,分別提升了10.8228%、14.0123%及25.8142%,可知本研究方法能有效掌握文件之重點內容,生成之摘要更為全面,藉由此方法讓使用者自動彙整電影評論文章,以生成一精簡之摘要,幫助使用者節省其在資訊的搜尋及閱讀的時間,以便能快速了解相關電影之資訊及評論。
The rapid development of information technology over the past decades has dramatically increased the amount of online information. Because of the time-wasting on absorbing large amounts of information for users, we would like to present a method in this thesis by using text topic and relationship mining for multi-document summarization to help users grasp the theme of multiple documents quickly and easily by reading the accurate summary without reading the whole documents.We use movie reviews as an example of multi-document summarization and apply the concept of article structures to categorize summary into film data, film orientation and conclusion by comparing the thesaurus of movie review field built by this thesis. Then we cluster the paragraphs in the structure of film orientation into different topics by Latent Dirichlet Allocation (LDA). Next, we apply the concept of text relationship map, a network of paragraphs and the node in the network referring to a paragraph and an edge indicating that the corresponding paragraphs are related to each other, to extract the most important paragraph in each topic and order them. Finally, we remove conjunctions and replace pronouns with the name it indicates in each extracted paragraph s and generate a bullet-point summary.From the result, the summary produced by this thesis can cover different topics of contents and improve the diversity of the summary. The similarities compared with the produced summaries and the best-sample summaries raise of 10.8228%, 14.0123% and 25.8142% respectively. The method presented in this thesis grasps the key contents effectively and generates a comprehensive summary. By providing this method, we try to let users aggregate the movie reviews automatically and generate a simplified summary to help them reduce the time in searching and reading articles.參考文獻 中文文獻:王聖竣 (2011)。自動文件摘要擷取之探討(未出版之碩士論文),中華大學,新竹市。甘子典 (2011)。一個文件相似度測量方法及其應用(未出版之碩士論文),國立中山大學,高雄市。何奕叡 (2015)。篇章分析及語言後設論述在英語專業影評及業餘影評的研究(未出版之碩士論文),國立高雄應用科技大學,高雄市。沈裕傑 (2008)。以語句為主之LDA模型於文件摘要之應用(未出版之碩士論文),國立成功大學,台南市。孟海濤、陳思、周睿 (2009)。基於LDA模型的WEB文本分類。鹽城工學院學報(自然科學版),22(4),56-59。袁立安 (2007)。混合式自動文件摘要方法(未出版之碩士論文),國立中山大學,高雄市。高立翰、沈大白、鄭惠如 (2013)。台灣電影票房績效模型影響因素之研究。東吳經濟商學學報,82,59-92。陳同孝、陳雨霖、劉明山、許文綬、林志強、邱永興 (2006)。結合K-means及階層式分群法之二階段分群演算法。電腦學刊,17(1),65-75。陳姿妤 (2007)。運用重複句排除技術於中文文件自動摘要之研究(未出版之碩士論文),淡江大學,新北市。張奇、黃萱菁、吳立德 (2005)。一種新的句子相似度度量及其在文本自動摘要中的應用。中文信息學報,2,93-99。張明慧、王紅玲、周國棟 (2010)。LDA主題驅動的中文多文檔自動文摘方法。第五屆全國青年計算語言學研討會,中國湖北武漢。曹娟、張勇東、李錦濤、唐勝 (2008)。一種基於密度的自適應最優LDA模型選擇方法。計算機學報,31(10),1780-1787。黃信捷 (2008)。使用潛在語意分析與自我組織映射於中文文件摘要(未出版之碩士論文),國立清華大學,新竹市。黃慶杰 (2016)。以文件間差異為基礎並實作中文摘要(未出版之碩士論文),國立中央大學,桃園市。楊佩臻 (2013)。利用文句關係網路自動萃取文件摘要之研究(未出版之碩士論文),國立中央大學,桃園市。葉振源 (2001)。文件自動化摘要方法之研究及其在中文文件的應用(未出版之碩士論文),國立交通大學,新竹市。葉振源 (2007)。摘錄式多文件自動化摘要方法之研究(未出版之博士論文),國立交通大學,新竹市。鄧亦安 (2016)。應用文字探勘於影評文章自動摘要之研究(未出版之碩士論文),國立政治大學,台北市。劉政璋 (2005)。以概念分群為基礎之新聞文件自動摘要系統(未出版之碩士論文),國立交通大學,新竹市。劉娜、路瑩、唐曉君、李明霞 (2015)。基於 LDA 重要主題的多文檔自動摘要算法。計算機科學與探索,2,242-248。蘇哲君 (2001)。中英雙語多文件自動摘要系統研究(未出版之碩士論文),國立臺灣大學,台北市。英文文獻:Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84. doi:10.1145/2133806.2133826Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.Gupta, V., & Lehal, G. S. (2010). A survey of text summarization extractive techniques. Journal of emerging technologies in web intelligence, 2(3), 258-268.Hovy, E., & Lin, C. Y. (1998). Automated text summarization and the SUMMARIST system. Proceedings of a workshop on held at Baltimore, Maryland: October 13-15, 1998, pp. 197-214. doi:10.3115/1119089.1119121Kumar, Y. J., Goh, O. S., Basiron, H., Choon, N.H., & Suppiah, P. C.. (2016). A Review on Automatic Text Summarization Approaches. Journal of Computer Science, 12(4), 178-190.Kupiec, J., Pedersen, J., & Chen, F. (1995). A trainable document summarizer. Proceeding SIGIR `95 Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 68-73. doi:10.1145/215206.215333Mani, I., & Maybury, M. T. (Eds.). (1999). Advances in automatic text summarization. Cambridge, MA: MIT Press.McKeown, K. R., Klavans, J. L., Hatzivassiloglou, V., Barzilay, R., & Eskin, E. (1999). Towards Multidocument Summarization by Reformulation: Progress and Prospects. Proceedings of AAAI-99, 453-460.Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Aggarwal, C. C. & Zhai, C. X. (Eds.), Mining text data (pp. 43-76). New York, NY:Springer.Salton, G., Singhal, A., Mitra, M., & Buckley, C. (1997). Automatic text structuring and summarization. Information Processing & Management, 33(2), 193-207. doi: 10.1016/S0306-4573(96)00062-3Silla Jr, C. N., Kaestner, C. A., & Freitas, A. A. (2003). A non-linear topic detection method for text summarization using wordnet. In Nunes, M. G. V., Aluisio, S. M., Oliveira, L. H. M., & Teles, J. A. (Eds.), Proc. I Workshop em Tecnologia da Informacao e Linguagem Humana (pp. 182-196). Brazil: ICMC-USP.Wang, J. H., Zhou, S. G., & Hu, Y. F. (2003). Sentences clustering based automatic summarization. Machine Learning And Cybernetics, 2003 International Conference On, 1, 57-62. doi:10.1109/icmlc.2003.1264442Xia, Y., Zhang, Y., & Yao, J. (2011). Co-clustering sentences and terms for multi-document summarization. In Gelbukh, A. F. (Eds.), Computational Linguistics and Intelligent Text Processing (pp. 339-352). Heidelberg, Germany: Springer.網路訊息:Nielsen(2015年10月15日)。口碑,最佳的廣告形式【新聞群組】。取自http://www.nielsen.com/tw/zh/press-room/2015/news-taiwan-trust-in-ad-2015-ch.htmlAlexa (2017, February 13). Top Sites in Taiwan [Online forum comment]. Retrieved from http://www.alexa.com/topsites/countries/TW痞客邦(2014年10月9日)。2014年第三屆痞客邦千萬美妝口碑賞保養部分文章數、人氣數、分享數三大指標分析【新聞群組】。取自https://styleme.pixnet.net/post/83769384創市際(2016年7月15日)。創市際雙週刊第六十七期 20160715【線上論壇】。取自http://www.ixresearch.com/reports/%E5%89%B5%E5%B8%82%E9%9A%9B%E9%9B%99%E9%80%B1%E5%88%8A%E7%AC%AC%E5%85%AD%E5%8D%81%E4%B8%83%E6%9C%9F-20160715/PIXinsight(2017年2月14日)。這是啥?5個好妙但長見聞的社群關鍵字!【線上論壇】。取自https://www.pixinsight.com.tw/community/post/12 描述 碩士
國立政治大學
資訊管理學系
104356028資料來源 http://thesis.lib.nccu.edu.tw/record/#G0104356028 資料類型 thesis dc.contributor.advisor 楊建民 zh_TW dc.contributor.author (作者) 林孟儀 zh_TW dc.creator (作者) 林孟儀 zh_TW dc.date (日期) 2017 en_US dc.date.accessioned 31-七月-2017 10:59:24 (UTC+8) - dc.date.available 31-七月-2017 10:59:24 (UTC+8) - dc.date.issued (上傳時間) 31-七月-2017 10:59:24 (UTC+8) - dc.identifier (其他 識別碼) G0104356028 en_US dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/111456 - dc.description (描述) 碩士 zh_TW dc.description (描述) 國立政治大學 zh_TW dc.description (描述) 資訊管理學系 zh_TW dc.description (描述) 104356028 zh_TW dc.description.abstract (摘要) 由於網際網路的普及造成資訊量愈來愈大,在資訊的搜尋、整理與閱讀上會耗費許多時間,因此本研究提出一應用文本主題及關係探勘的方法,將多份文件自動生成一篇摘要,以幫助使用者能降低資訊的閱讀時間,並能快速理解文件所欲表達之意涵。本研究以電影評論文章為例,結合文章結構的概念,將影評摘要分為「電影資訊」、「電影劇情介紹」及「心得結論」三部分,其中「電影資訊」及「心得結論」為透過本研究建置之電影領域相關詞庫比對得出。接著將餘下之段落歸屬於「電影劇情介紹」,並透過LDA主題模型將段落分群,再運用主題關係地圖的概念挑選各群之代表段落並排序,最後將各段落去除連接詞及將代名詞還原為其所指之主詞,以形成一篇列點式影評摘要。研究結果顯示,本研究所實驗之三部電影,產生之摘要能涵蓋較多的資訊內容,提升了摘要之多樣性,在與最佳範本摘要的相似度比對上,分別提升了10.8228%、14.0123%及25.8142%,可知本研究方法能有效掌握文件之重點內容,生成之摘要更為全面,藉由此方法讓使用者自動彙整電影評論文章,以生成一精簡之摘要,幫助使用者節省其在資訊的搜尋及閱讀的時間,以便能快速了解相關電影之資訊及評論。 zh_TW dc.description.abstract (摘要) The rapid development of information technology over the past decades has dramatically increased the amount of online information. Because of the time-wasting on absorbing large amounts of information for users, we would like to present a method in this thesis by using text topic and relationship mining for multi-document summarization to help users grasp the theme of multiple documents quickly and easily by reading the accurate summary without reading the whole documents.We use movie reviews as an example of multi-document summarization and apply the concept of article structures to categorize summary into film data, film orientation and conclusion by comparing the thesaurus of movie review field built by this thesis. Then we cluster the paragraphs in the structure of film orientation into different topics by Latent Dirichlet Allocation (LDA). Next, we apply the concept of text relationship map, a network of paragraphs and the node in the network referring to a paragraph and an edge indicating that the corresponding paragraphs are related to each other, to extract the most important paragraph in each topic and order them. Finally, we remove conjunctions and replace pronouns with the name it indicates in each extracted paragraph s and generate a bullet-point summary.From the result, the summary produced by this thesis can cover different topics of contents and improve the diversity of the summary. The similarities compared with the produced summaries and the best-sample summaries raise of 10.8228%, 14.0123% and 25.8142% respectively. The method presented in this thesis grasps the key contents effectively and generates a comprehensive summary. By providing this method, we try to let users aggregate the movie reviews automatically and generate a simplified summary to help them reduce the time in searching and reading articles. en_US dc.description.tableofcontents 第一章 緒論 1第一節 研究背景與動機 1第二節 研究目的 3第二章 文獻探討 4第一節 文件自動摘要方法 4第二節 以分群為基礎的摘要方法 6第三節 以主題關係地圖為基礎的摘要方法 10第四節 小結 13第三章 研究方法與設計 14第一節 研究架構 14第二節 實驗語料處理 16第三節 電影領域詞庫建置與比對 17第四節 段落向量空間模型 18第五節 LDA主題模型進行分群 20第六節 主題代表段落挑選及摘要排序 22第四章 研究結果與評估 24第一節 電影領域詞庫 24第二節 LDA主題數之決定 26第三節 影評研究結果 26一、 高年級實習生 26二、 動物方城市 34三、 丹麥女孩 41第四節 實驗評估 49第五章 結論與未來發展 51第一節 結論 51第二節 研究限制與未來研究方向 51參考文獻 53 zh_TW dc.format.extent 935037 bytes - dc.format.mimetype application/pdf - dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0104356028 en_US dc.subject (關鍵詞) 文字探勘 zh_TW dc.subject (關鍵詞) 多文件自動摘要 zh_TW dc.subject (關鍵詞) LDA主題模型 zh_TW dc.subject (關鍵詞) 主題關係地圖 zh_TW dc.subject (關鍵詞) Text mining en_US dc.subject (關鍵詞) Multi-document summarization en_US dc.subject (關鍵詞) LDA Topic Model en_US dc.subject (關鍵詞) Text relationship map en_US dc.title (題名) 應用文本主題與關係探勘於多文件自動摘要方法之研究:以電影評論文章為例 zh_TW dc.title (題名) Application of text topic and relationship mining for multi-document summarization: using movie reviews as an example en_US dc.type (資料類型) thesis en_US dc.relation.reference (參考文獻) 中文文獻:王聖竣 (2011)。自動文件摘要擷取之探討(未出版之碩士論文),中華大學,新竹市。甘子典 (2011)。一個文件相似度測量方法及其應用(未出版之碩士論文),國立中山大學,高雄市。何奕叡 (2015)。篇章分析及語言後設論述在英語專業影評及業餘影評的研究(未出版之碩士論文),國立高雄應用科技大學,高雄市。沈裕傑 (2008)。以語句為主之LDA模型於文件摘要之應用(未出版之碩士論文),國立成功大學,台南市。孟海濤、陳思、周睿 (2009)。基於LDA模型的WEB文本分類。鹽城工學院學報(自然科學版),22(4),56-59。袁立安 (2007)。混合式自動文件摘要方法(未出版之碩士論文),國立中山大學,高雄市。高立翰、沈大白、鄭惠如 (2013)。台灣電影票房績效模型影響因素之研究。東吳經濟商學學報,82,59-92。陳同孝、陳雨霖、劉明山、許文綬、林志強、邱永興 (2006)。結合K-means及階層式分群法之二階段分群演算法。電腦學刊,17(1),65-75。陳姿妤 (2007)。運用重複句排除技術於中文文件自動摘要之研究(未出版之碩士論文),淡江大學,新北市。張奇、黃萱菁、吳立德 (2005)。一種新的句子相似度度量及其在文本自動摘要中的應用。中文信息學報,2,93-99。張明慧、王紅玲、周國棟 (2010)。LDA主題驅動的中文多文檔自動文摘方法。第五屆全國青年計算語言學研討會,中國湖北武漢。曹娟、張勇東、李錦濤、唐勝 (2008)。一種基於密度的自適應最優LDA模型選擇方法。計算機學報,31(10),1780-1787。黃信捷 (2008)。使用潛在語意分析與自我組織映射於中文文件摘要(未出版之碩士論文),國立清華大學,新竹市。黃慶杰 (2016)。以文件間差異為基礎並實作中文摘要(未出版之碩士論文),國立中央大學,桃園市。楊佩臻 (2013)。利用文句關係網路自動萃取文件摘要之研究(未出版之碩士論文),國立中央大學,桃園市。葉振源 (2001)。文件自動化摘要方法之研究及其在中文文件的應用(未出版之碩士論文),國立交通大學,新竹市。葉振源 (2007)。摘錄式多文件自動化摘要方法之研究(未出版之博士論文),國立交通大學,新竹市。鄧亦安 (2016)。應用文字探勘於影評文章自動摘要之研究(未出版之碩士論文),國立政治大學,台北市。劉政璋 (2005)。以概念分群為基礎之新聞文件自動摘要系統(未出版之碩士論文),國立交通大學,新竹市。劉娜、路瑩、唐曉君、李明霞 (2015)。基於 LDA 重要主題的多文檔自動摘要算法。計算機科學與探索,2,242-248。蘇哲君 (2001)。中英雙語多文件自動摘要系統研究(未出版之碩士論文),國立臺灣大學,台北市。英文文獻:Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84. doi:10.1145/2133806.2133826Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.Gupta, V., & Lehal, G. S. (2010). A survey of text summarization extractive techniques. Journal of emerging technologies in web intelligence, 2(3), 258-268.Hovy, E., & Lin, C. Y. (1998). Automated text summarization and the SUMMARIST system. Proceedings of a workshop on held at Baltimore, Maryland: October 13-15, 1998, pp. 197-214. doi:10.3115/1119089.1119121Kumar, Y. J., Goh, O. S., Basiron, H., Choon, N.H., & Suppiah, P. C.. (2016). A Review on Automatic Text Summarization Approaches. Journal of Computer Science, 12(4), 178-190.Kupiec, J., Pedersen, J., & Chen, F. (1995). A trainable document summarizer. Proceeding SIGIR `95 Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 68-73. doi:10.1145/215206.215333Mani, I., & Maybury, M. T. (Eds.). (1999). Advances in automatic text summarization. Cambridge, MA: MIT Press.McKeown, K. R., Klavans, J. L., Hatzivassiloglou, V., Barzilay, R., & Eskin, E. (1999). Towards Multidocument Summarization by Reformulation: Progress and Prospects. Proceedings of AAAI-99, 453-460.Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Aggarwal, C. C. & Zhai, C. X. (Eds.), Mining text data (pp. 43-76). New York, NY:Springer.Salton, G., Singhal, A., Mitra, M., & Buckley, C. (1997). Automatic text structuring and summarization. Information Processing & Management, 33(2), 193-207. doi: 10.1016/S0306-4573(96)00062-3Silla Jr, C. N., Kaestner, C. A., & Freitas, A. A. (2003). A non-linear topic detection method for text summarization using wordnet. In Nunes, M. G. V., Aluisio, S. M., Oliveira, L. H. M., & Teles, J. A. (Eds.), Proc. I Workshop em Tecnologia da Informacao e Linguagem Humana (pp. 182-196). Brazil: ICMC-USP.Wang, J. H., Zhou, S. G., & Hu, Y. F. (2003). Sentences clustering based automatic summarization. Machine Learning And Cybernetics, 2003 International Conference On, 1, 57-62. doi:10.1109/icmlc.2003.1264442Xia, Y., Zhang, Y., & Yao, J. (2011). Co-clustering sentences and terms for multi-document summarization. In Gelbukh, A. F. (Eds.), Computational Linguistics and Intelligent Text Processing (pp. 339-352). Heidelberg, Germany: Springer.網路訊息:Nielsen(2015年10月15日)。口碑,最佳的廣告形式【新聞群組】。取自http://www.nielsen.com/tw/zh/press-room/2015/news-taiwan-trust-in-ad-2015-ch.htmlAlexa (2017, February 13). Top Sites in Taiwan [Online forum comment]. Retrieved from http://www.alexa.com/topsites/countries/TW痞客邦(2014年10月9日)。2014年第三屆痞客邦千萬美妝口碑賞保養部分文章數、人氣數、分享數三大指標分析【新聞群組】。取自https://styleme.pixnet.net/post/83769384創市際(2016年7月15日)。創市際雙週刊第六十七期 20160715【線上論壇】。取自http://www.ixresearch.com/reports/%E5%89%B5%E5%B8%82%E9%9A%9B%E9%9B%99%E9%80%B1%E5%88%8A%E7%AC%AC%E5%85%AD%E5%8D%81%E4%B8%83%E6%9C%9F-20160715/PIXinsight(2017年2月14日)。這是啥?5個好妙但長見聞的社群關鍵字!【線上論壇】。取自https://www.pixinsight.com.tw/community/post/12 zh_TW