Publications-Theses

Article View/Open

Publication Export

Google ScholarTM

NCCU Library

Citation Infomation

Related Publications in TAIR

題名 基於文件相似度的標籤推薦-應用於問答型網站
Applying Tag Recommendation base on Document Similarity in Question and Answer Website
作者 葉早彬
Tsao, Pin Yeh
貢獻者 楊建民
葉早彬
Tsao, Pin Yeh
關鍵詞 文字探勘
標籤推薦
群眾智慧
Text Mining
Tag Recommendation
Collective Intelligence
日期 2015
上傳時間 13-Jul-2015 11:07:04 (UTC+8)
摘要 隨著人們習慣的改變,從網路上獲取新知漸漸取代傳統媒體,這也延伸產生許多新的行為。社群標籤是近幾年流行的一種透過使用者標記來分類與詮釋資訊的方式,相較於傳統分類學要求物件被分類到預先定義好的類別,社群標籤則沒有這樣的要求,因此容易因應內容的變動做出調整。
問答型網站是近年來興起的一種個開放性的知識分享平台,例如quora、Stack Overflow、yahoo 奇摩知識+,使用者可以在平台上與網友做問答的互動,在問與答的討論中,結合大眾的經驗與專長,幫助使用者找到滿意的答案,使用單純的問答系統的好處是可以不必在不同且以分類為主的論壇花費時間尋找答案,和在關鍵字搜索中的結果花費時間尋找答案。
本研究希望能針對問答型網站的文件做自動標籤分類,運用標籤推薦技術來幫助使用者能夠更有效率的找到需要的問題,也讓問答平台可以把這些由使用者所產生的大量問題分群歸類。
在研究過程蒐集Stack Exchange問答網站共20638個問題,使用naïve Bayes演算法與文件相似度計算的方式,進行標籤推薦,推薦適合的標籤給新進文件。在研究結果中,推薦標籤的準確率有64.2%
本研究希望透過自動分類標籤,有效地分類問題。幫助使用者有效率的找到需要的問題,也能把這些由使用者所產生的大量問題分群歸類。
With User`s behavior change. User access to new knowledge from the internet instead of from the traditional media. This Change leads to a lot new behavior. Social tagging is popular in recent years through a user tag to classify and annotate information. Unlike traditional taxonomy requiring items are classified into predefined categories, Social tagging is more elastic to adjust through the content change.
Q & A Website is the rise in recent years. Like Quora , Stack Overflow , yahoo Knowledge plus. User can interact with other people form this platform , in Q & A discussion, with People`s experience and expertise to help the user find a satisfactory answer.
This study hopes to build a tag recommendation system for Q & A Website. The recommendation system can help people find the right problem efficiently , and let Q & A platform can put these numerous problems into the right place.
We collect 20,638 questions from Stack Exchange. Use naïve Bayes algorithm and document similarity calculation to recommend tag for the new document. The result of the evaluation show we can effectively recommend relevant tags for the new question.
參考文獻 林倩妏, and 卜小蝶. "標籤雲在圖書資訊服務之應用初探." 海峽兩岸圖書資訊學學術研討會論文集 二-117 (2010).
陳光華,莊雅蓁. 應用於資訊檢索的中文同義詞之建構. 資訊傳播與圖書館學, 8 (1), 2001 年 9 月, 2001, 59-75.
陸明怡. "以群眾智慧觀念為基礎之群體意見結論推論模式" (碩士論文) 清華大學(2011)
楊玉齡譯,Surowiecki, James 原著,2005,《群眾的智慧:如何讓個人、團隊、企業 與社會變得更聰明》,台北市:遠流公司出版社。
戴瑋. "應用社會化協同標籤於網路資源搜尋." (碩士論文)中央大學(2008).
http://sparc.nfu.edu.tw/~tchen/DataMining2/ch5.ppt
http://zh.wikipedia.org/wiki/最近鄰居法
http://zh.wikipedia.org/wiki/Yahoo!奇摩知識+
http://zh.wikipedia.org/wiki/Web_2.0
Budura, A., Michel, S., Cudré-Mauroux, P., & Aberer, K. (2009). Neighborhood-based tag prediction. In The semantic web: research and applications (pp. 608-622). Springer Berlin Heidelberg.
Cao, H., Xie, M., Xue, L., Liu, C., Teng, F., & Huang, Y. (2009). Social tag prediction base on supervised ranking model. In Proceeding of ECML/PKDD 2009 Discovery Challenge Workshop (pp. 35-48).
Heymann, P., Ramage, D., & Garcia-Molina, H. (2008, July). Social tag prediction. In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (pp. 531-538). ACM.
Huberman, S. G. B. A. The Structure of Collaborative Tagging Systems. No. cs. DL/0508082. cs/0508082, 2005.
Jordan, A. (2002). On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. Advances in neural information processing systems, 14, 841.
Rodrigues, E. M., Milic-Frayling, N., & Fortuna, B. (2008, December). Social tagging behaviour in community-driven question answering. In Proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology-Volume 01 (pp. 112-119). IEEE Computer Society.
McCallum, A., & Nigam, K. (1998, July). A comparison of event models for naive bayes text classification. In AAAI-98 workshop on learning for text categorization (Vol. 752, pp. 41-48).
Yin, D., Xue, Z., Hong, L., & Davison, B. D. (2010, July). A probabilistic model for personalized tag prediction. In Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 959-968). ACM.
Rendle, S., Balby Marinho, L., Nanopoulos, A., & Schmidt-Thieme, L. (2009, June). Learning optimal ranking with tensor factorization for tag recommendation. In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 727-736). ACM.
Salton, G., McGill, M. (1983). Introduction to Modern Information Retrieval, New York: McGraw-Hill.
Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613-620.
Sigurbjörnsson, B., & Van Zwol, R. (2008, April). Flickr tag recommendation based on collective knowledge. In Proceedings of the 17th international conference on World Wide Web (pp. 327-336). ACM.
https://archive.org/details/stackexchange
描述 碩士
國立政治大學
資訊管理研究所
102356003
103
資料來源 http://thesis.lib.nccu.edu.tw/record/#G0102356003
資料類型 thesis
dc.contributor.advisor 楊建民zh_TW
dc.contributor.author (Authors) 葉早彬zh_TW
dc.contributor.author (Authors) Tsao, Pin Yehen_US
dc.creator (作者) 葉早彬zh_TW
dc.creator (作者) Tsao, Pin Yehen_US
dc.date (日期) 2015en_US
dc.date.accessioned 13-Jul-2015 11:07:04 (UTC+8)-
dc.date.available 13-Jul-2015 11:07:04 (UTC+8)-
dc.date.issued (上傳時間) 13-Jul-2015 11:07:04 (UTC+8)-
dc.identifier (Other Identifiers) G0102356003en_US
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/76423-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 資訊管理研究所zh_TW
dc.description (描述) 102356003zh_TW
dc.description (描述) 103zh_TW
dc.description.abstract (摘要) 隨著人們習慣的改變,從網路上獲取新知漸漸取代傳統媒體,這也延伸產生許多新的行為。社群標籤是近幾年流行的一種透過使用者標記來分類與詮釋資訊的方式,相較於傳統分類學要求物件被分類到預先定義好的類別,社群標籤則沒有這樣的要求,因此容易因應內容的變動做出調整。
問答型網站是近年來興起的一種個開放性的知識分享平台,例如quora、Stack Overflow、yahoo 奇摩知識+,使用者可以在平台上與網友做問答的互動,在問與答的討論中,結合大眾的經驗與專長,幫助使用者找到滿意的答案,使用單純的問答系統的好處是可以不必在不同且以分類為主的論壇花費時間尋找答案,和在關鍵字搜索中的結果花費時間尋找答案。
本研究希望能針對問答型網站的文件做自動標籤分類,運用標籤推薦技術來幫助使用者能夠更有效率的找到需要的問題,也讓問答平台可以把這些由使用者所產生的大量問題分群歸類。
在研究過程蒐集Stack Exchange問答網站共20638個問題,使用naïve Bayes演算法與文件相似度計算的方式,進行標籤推薦,推薦適合的標籤給新進文件。在研究結果中,推薦標籤的準確率有64.2%
本研究希望透過自動分類標籤,有效地分類問題。幫助使用者有效率的找到需要的問題,也能把這些由使用者所產生的大量問題分群歸類。
zh_TW
dc.description.abstract (摘要) With User`s behavior change. User access to new knowledge from the internet instead of from the traditional media. This Change leads to a lot new behavior. Social tagging is popular in recent years through a user tag to classify and annotate information. Unlike traditional taxonomy requiring items are classified into predefined categories, Social tagging is more elastic to adjust through the content change.
Q & A Website is the rise in recent years. Like Quora , Stack Overflow , yahoo Knowledge plus. User can interact with other people form this platform , in Q & A discussion, with People`s experience and expertise to help the user find a satisfactory answer.
This study hopes to build a tag recommendation system for Q & A Website. The recommendation system can help people find the right problem efficiently , and let Q & A platform can put these numerous problems into the right place.
We collect 20,638 questions from Stack Exchange. Use naïve Bayes algorithm and document similarity calculation to recommend tag for the new document. The result of the evaluation show we can effectively recommend relevant tags for the new question.
en_US
dc.description.tableofcontents 第一章 緒論 1
第一節 研究背景與動機 1
第二節 研究目的 2
第二章 文獻探討 3
第一節 標籤系統 3
一、 標籤應用於web2.0網站 3
二、 標籤之於資訊檢索 4
第二節 標籤預測 5
第三節 群眾智慧 6
第四節 文字探勘 8
一、 簡單貝氏分類(naive Bayes classifiers) 8
二、 向量空間模型 9
三、 相似度計算 11
四、 K-近鄰演算法(K Nearest Neighbor) 11
第五節 同義字 12
第六節 小結 13
第三章 研究方法 14
第一節 研究架構 14
第二節 研究資料來源與資料前處理 15
一、 研究資料來源 15
二、 資料前處理模組 16
第三節 NAIVE BAYES分類器 16
第四節 改良式NAIVE BAYES-KNN標籤推薦法 18
一、 推薦標籤 18
二、 naive Bayes 18
三、 文件相似度 18
四、 概念文件分群 19
五、 KNN分群 20
六、 調整分群 21
第四章 研究結果 23
第一節 檢驗NAIVE BAYES的推薦結果 23
第二節 檢驗改良式NAIVE BAYES標籤推薦法的推薦結果 24
第三節 加入文件群的共同標籤後的推薦結果 26
第五章 結論與未來展望 28
第一節 結論與建議 28
第二節 未來研究方向與建議 29
參考文獻 30
zh_TW
dc.format.extent 1396472 bytes-
dc.format.extent 1396472 bytes-
dc.format.mimetype application/pdf-
dc.format.mimetype application/pdf-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G0102356003en_US
dc.subject (關鍵詞) 文字探勘zh_TW
dc.subject (關鍵詞) 標籤推薦zh_TW
dc.subject (關鍵詞) 群眾智慧zh_TW
dc.subject (關鍵詞) Text Miningen_US
dc.subject (關鍵詞) Tag Recommendationen_US
dc.subject (關鍵詞) Collective Intelligenceen_US
dc.title (題名) 基於文件相似度的標籤推薦-應用於問答型網站zh_TW
dc.title (題名) Applying Tag Recommendation base on Document Similarity in Question and Answer Websiteen_US
dc.type (資料類型) thesisen
dc.relation.reference (參考文獻) 林倩妏, and 卜小蝶. "標籤雲在圖書資訊服務之應用初探." 海峽兩岸圖書資訊學學術研討會論文集 二-117 (2010).
陳光華,莊雅蓁. 應用於資訊檢索的中文同義詞之建構. 資訊傳播與圖書館學, 8 (1), 2001 年 9 月, 2001, 59-75.
陸明怡. "以群眾智慧觀念為基礎之群體意見結論推論模式" (碩士論文) 清華大學(2011)
楊玉齡譯,Surowiecki, James 原著,2005,《群眾的智慧:如何讓個人、團隊、企業 與社會變得更聰明》,台北市:遠流公司出版社。
戴瑋. "應用社會化協同標籤於網路資源搜尋." (碩士論文)中央大學(2008).
http://sparc.nfu.edu.tw/~tchen/DataMining2/ch5.ppt
http://zh.wikipedia.org/wiki/最近鄰居法
http://zh.wikipedia.org/wiki/Yahoo!奇摩知識+
http://zh.wikipedia.org/wiki/Web_2.0
Budura, A., Michel, S., Cudré-Mauroux, P., & Aberer, K. (2009). Neighborhood-based tag prediction. In The semantic web: research and applications (pp. 608-622). Springer Berlin Heidelberg.
Cao, H., Xie, M., Xue, L., Liu, C., Teng, F., & Huang, Y. (2009). Social tag prediction base on supervised ranking model. In Proceeding of ECML/PKDD 2009 Discovery Challenge Workshop (pp. 35-48).
Heymann, P., Ramage, D., & Garcia-Molina, H. (2008, July). Social tag prediction. In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (pp. 531-538). ACM.
Huberman, S. G. B. A. The Structure of Collaborative Tagging Systems. No. cs. DL/0508082. cs/0508082, 2005.
Jordan, A. (2002). On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. Advances in neural information processing systems, 14, 841.
Rodrigues, E. M., Milic-Frayling, N., & Fortuna, B. (2008, December). Social tagging behaviour in community-driven question answering. In Proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology-Volume 01 (pp. 112-119). IEEE Computer Society.
McCallum, A., & Nigam, K. (1998, July). A comparison of event models for naive bayes text classification. In AAAI-98 workshop on learning for text categorization (Vol. 752, pp. 41-48).
Yin, D., Xue, Z., Hong, L., & Davison, B. D. (2010, July). A probabilistic model for personalized tag prediction. In Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 959-968). ACM.
Rendle, S., Balby Marinho, L., Nanopoulos, A., & Schmidt-Thieme, L. (2009, June). Learning optimal ranking with tensor factorization for tag recommendation. In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 727-736). ACM.
Salton, G., McGill, M. (1983). Introduction to Modern Information Retrieval, New York: McGraw-Hill.
Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613-620.
Sigurbjörnsson, B., & Van Zwol, R. (2008, April). Flickr tag recommendation based on collective knowledge. In Proceedings of the 17th international conference on World Wide Web (pp. 327-336). ACM.
https://archive.org/details/stackexchange
zh_TW