Please use this identifier to cite or link to this item: https://ah.lib.nccu.edu.tw/handle/140.119/84819
題名: 中文動詞自動分類研究
Automatic Classification of Chinese Unknown Verbs
作者: 曾慧馨
Tseng, Hui-Hsin
貢獻者: 高照明<br>劉昭麟
Gao, Zhao-Ming<br>Liu, Chao-Lin
曾慧馨
Tseng, Hui-Hsin
關鍵詞: 未知詞
詞彙相似度測量
動詞
unknown words
lexical similarity
verbs
日期: 2001
上傳時間: 15-Apr-2016
摘要: 本文提出以規則法與相似法將未知動詞自動分類至中研院詞庫小組(1993)的動詞分類標記上。規則法中的規則從訓練語料中訓練出,並加上未知動詞重疊的規律,包含率約二成五,正確率約86.86%∼91.32%。規則法的優點在於正確率高,但缺點在於可以處理的未知動詞數量太少。相似法利用與未知動詞的相似例子猜測未知動詞的可能分類,利用詞彙內部的訊息---詞基的詞類、語意類與詞彙結構來計算相似度。相似法的可以全面性的處理未知動詞,缺點容易受到訓練語料中標記錯誤的例子誤導與訓練語料的大小所影響。我們結合規則法與相似法預測未知動詞分類的正確率為72%。
We present two methods to classify the Chinese unknown verbs. First, we summarize some linguistic rules and morphological patterns from corpus. The accuracy of the rule-based method is 86.86%~91.32%. Second, we use the instance-based categorization to classify the Chinese unknown words. The accuracy of the instance-based method is 67.86%~70.92% and the accuracy of the integrated classifier is about 72%.
參考文獻: 中文\r\n中央研究院詞知識庫小組。1993。《技術報告9305:中文詞類分析》。三版。南港:中央研究院詞知識庫小組。\r\n---。1996。《技術報告9601:『搜』文解字---中文詞界研究與資訊用分詞標準》。南港:中央研究院詞知識庫小組。\r\n---。1998。《技術報告9502/9804:中央研究院平衡語料庫的內容與說明》。修訂版。南港:中央研究院詞知識庫小組。\r\n白明弘、陳超然、陳克健。1998。<以語境判定中文未知詞詞類的方法>,《第十一屆計算機語言學會論文集》。頁47-60。\r\n李振昌。1993。《中文文本專有名詞辨識問題之研究》。台北:台灣大學資訊工程研究所碩士論文。\r\n李振昌、李御璽、陳信希。1994。《中文文本人名辨識問題之研究》。<第七屆計算機語言會會議論文集>,頁203-222。\r\n李坤霖。2000。《網際網路FAQ檢索中意圖萃取及語意比對之研究》。台南:成功大學資訊工程研究所碩士論文。\r\n林甫雯。1992。《技術報告9202:V-N複合名詞討論篇》。南港:中央研究院詞知識庫小組。\r\n林甫雯。1989。《漢語的述補式複合動詞》。新竹:清華大學語言學研究所碩士論文。\r\n林其青。1999。《英中詞彙知識庫建構機制之研究》。台北:台灣大學資訊工程研究所碩士論文。\r\n陳克健、陳正佳、林隆基。1986。《中文語句分析的研究---斷詞與構詞》。南港:中央研究院資訊科學所。\r\n陳克健、洪偉美。1996。<中文裡『動名』述賓結構與『動名』偏正結構的分析>,《第八屆計算機語言學會論文集》,頁1-29。\r\n陳克健、陳超然。1997。<語料庫為本的中文複合詞構詞律模型研究>,《漢語計量與計算研究》,編輯:鄒嘉彥、黎邦洋、陳偉光、王士元。頁283-305。香港:城市大學。\r\n陳永德。1997。《中文斷詞中長詞優先、詞頻對比與前詞優先規則之使用》。台北:台灣大學心理所博士論文。\r\n陳信希。2001。《自然語言處理在搜尋引擎的應用》。中文搜尋引擎技術研討會。南港:中央研究院資訊科學研究所。\r\n陳鳳儀、蔡碧芳、陳克健、黃居仁。1999。《中文句結構樹的構建》。<中文計算語言期刊 vol 4. no.2>,頁87-104。\r\n梅家駒、竺一鳴、高蘊琦、殷鴻翔。1986。《同義詞詞林》。香港:商務印書館。\r\n章明德。1995。《先秦漢語詞彙並列結構研究》。台北:政治大學中文所碩士論文。\r\n張麗麗、陳克健、黃居仁。1999。<漢語動詞詞彙語意分析:表達模式與方法>,《漢語動詞語意研究論文集I》,頁19-43。台北:中央研究院詞知識庫小組。\r\n黃居仁、陳克健。1995。《中央研究院平衡語料庫》。南港:中央研究院詞知識庫小組\r\n黃居仁、陳克健、張莉萍、許蕙麗。1995。《中央研究院平衡語料庫簡介》。<第八屆計算機語言學研討會論文集>,頁81-100。\r\n葉美利、湯志真、黃居仁、陳克健。1992。《漢語的動詞名物化初探---漢語中帶論文的名物化派生名詞》。<第五屆計算與語言學會議論文集>,頁177-194。\r\n湯廷池。1988。《漢語詞法句法論文集》。台北:學生書局。\r\n---。1989。《漢語詞法句法論文續集》。台北:學生書局。\r\n---。1994。《漢語詞法句法五集》。台北:學生書局。\r\n董振東、董強。2000。知網---中文信息結構庫。知網下載。知網。<http://www.keenage.com>\r\n---。2000。事件關係與角色轉換庫。知網下載。知網。<http://www.keenage.com>\r\n蔡志浩。1993。《語意透明度對辨識中文雙字詞的影響》。嘉義:中正大學心理所碩士論文。\r\n趙元任。1980。《中國話文法?。丁邦新譯。香港:中文大學。\r\n鄧守信。1984。《漢語及物性關係的語意研究》。台北:學生書局。\r\n劉美君、許蕙麗。1994。《中文動詞的處理:詞庫小組動詞系統及動詞大字典之比較》。<第七屆計算機語言會會議論文集>,頁91-110。\r\n賴育昇、李坤霖、吳宗憲。2000。《網際網路FAQ檢索中意圖萃取及語意比對之研究》。<第十三屆計算機語言學研討會>,頁135-156。\r\n顏國偉、譚慧敏。1999。《基於知網的常識知識標注》。<中文計算語言期刊vol 4. no.2>,頁39-86。\r\n西文\r\nAbney, Steven. 1996. Statistical Methods and Linguistics. The Balancing: Combing Symbolic and Statistical Approaches to Language, ed. by Judith L. Klavans and Philip Resnik, 1-26. Cambridge: MIT.\r\nAllen, James. 1995. Natural Language Understanding. 2nd editon. Redwood City: Benjamin/Cummings.\r\nBiber, Douglas, Susan Conrad, and Randi Reppen. 1998. Corpus Linguistics: Inverstigating Language Structure and Use. Cambridge: Cambridge University Press.\r\nBresnan, Joan. 2001. Lexical Functional Syntax. Oxford:Blackwell.\r\nChang, Jing-Shin and Keh-Yih Su. 1997. A Multivariate Gaussian Mixture Model for Automatic Compound Word Extraction. Proceedings of Research of Computaionl Linguistics X, 123-142.\r\nCharniak, Eugene. 1993. Statistical Language Learning. Cambridge:MIT.\r\nChen, Chao Jan , Ming-Hung Bai and Keh-Jiann Chen. 1997. Category Guessing for Chinese Unknown Words. Proceedings of the Natural Language Processing Pacific Rim Symposium 1997, 35-40.\r\nChen, Keh-Jiann and Ming-Hong Bai. 1998. Unknown Word Detection for Chinese by a Corpus-based Learning Method. Computational Lingiustics and Chinese Language Processing vol3 no. 1, 27-44.\r\nChen, Keh-Jiann and Chao-Jan Chen. 2000. Automatic Semantic Classification for Chinese Unknown Compound Nouns. Proceedings of the 18th International Conference on Computaitonal Linguistics.\r\n---. 2000. Knowledge Extraction for Identification of Chinese Organization Names. Proceedings of the second Chinese Language Processing Workshop, 15-21.\r\nChen, Hsin-Hsi and Chi-Ching Lin. 2000. Sense-Tagging Chinese Corpus. Proceedings of the second Chinese Language Processing Workshop, 7-14.\r\nChurch, Kenneth W. .and Hanks P. 1990. Word Association Norm, Mutual Information, and Lexicography. Computational Linguitsics 16, 22-29.\r\nFranz, Alexander. 1996. Automatic Ambiguity Resolution in Natural Language Processing. Berlin:Springer.\r\nHer, One-Soon. 1997. Interaction and Varivation in the Chinese VO Construction. Tapiei:Crane.\r\nHuang, Chu-Ren, Wei-Mei Hong and Keh-Jiann Chen. 1994. An Introduction Based Lexical of Abbreviation. Proceedings of the 2th Pacific Asia Conference on Formal and Computational Linguistics, 49-52.\r\nHuang, Chu-Ren, Keh-Jiann Chen, Lili Chang and Fung-Yi Chen. 1997. Segmentation Standrad for Chinese Natural Lnaguage Processing vol 2. no.2.:47-62.\r\nHuang, Chu-Ren, Zhao-Ming Gao, Claude C. C. Shen, Keh-Jiann Chen. 1998. Quantitative Criteria for Computational Chinese Lexicagraphy. Proceedings of Research on Compuational Linguistics Conference XI, 87-108.\r\nJurafsky, Daniel and James H. Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. New Jersey: Pearson Higher Education.\r\nKatamba, Francis. 1993. Morphology. New York: St. Martin’s Press.\r\nLuo, Lyih-Peir. 1999. Studien zu seriellen Verbkonstruktionen. Tuebingen:Niemeyer.\r\nManning Christopher D. and Hinrich Schuetze. 1999. Foundations of Statistical Natural Language Processing. Cambridge:MIT\r\nMitchel, Tom M. 1997. Machine Learning. Boston:McGrqw-Hill.\r\nOakes, Michael P. 1998. Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press.\r\nPeter, Sells. 1985. Lectures on Contemporary Syntactic Theories. Stanford: Stanford University.\r\nResnik, Philip. 1995. Using Information Content to Evaluate Semantic Similarity in a Taxonomy. Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI), 448-453.\r\n---. 1998. Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language. Journal of Artificial Intelligence Research XI, 95-130.\r\nResnik, Philip and Mona Diab. 2000. Measuring Verbal Similarity. Technical Report:LAMP-TR-047//UMIACS-TR-2000-40/CS-TR-4149/MDA-9049-6C-1250. University of Maryland, College Park.\r\nPinker, Steven. 1989. Learnability and Cognition. Cambridge: MIT Press.\r\n---. 1995. The Language Instinct. New York: HarperPerennial.\r\nRoss, Sheldon. 1988. A First Course in Probability. Third Edition. New York:Macmillan.\r\nWeischedel, Ralph, Marie Meteer, Richard Schwartz, Lance Ramshaw and Jeff Palmucci. 1993. Coping with Ambiguity and Unknown Words through Probalistic Model. Computaional Lingistics 19,359-382.\r\nWitten Ian H. and Eibe Frank. 1999. Data Mining : Practical Machine Learning Tools and Techniques with Java Implementations. San Francisco:Morgan Kaufmann.\r\nYang, Erhong, Guoqing Zhang, and Yongkui Zhang. 2000. The Research of Word Sense Disambiguation Method Based on Co-occurrence Frequency of Hownet. Proceedings of the second Chinese Language Processing Workshop, 60-65.
描述: 碩士
國立政治大學
語言學研究所
88555011
資料來源: http://thesis.lib.nccu.edu.tw/record/#A2002001006
資料類型: thesis
Appears in Collections:學位論文

Files in This Item:
File SizeFormat
index.html115 BHTML2View/Open
Show full item record

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.