Publications-Theses

Article View/Open

Publication Export

Google ScholarTM

NCCU Library

Citation Infomation

Related Publications in TAIR

題名 以詞性共列關係分析文本中動詞語境-以二二八史料文本為例
Applying Part of Speech Collocation for Verb Context Profiling – A Case Study with The Taiwan 228-Event News Archive
作者 呂育如
Lu, Yu Ju
貢獻者 劉吉軒
Liu, Jyi Shane
呂育如
Lu, Yu Ju
關鍵詞 數位人文
文本分析
機器斷詞
漢語語言學
digital humanities
Chinese Linguistics
textual analysis
日期 2016
上傳時間 22-Aug-2016 11:07:37 (UTC+8)
摘要 摘要
從早期資訊技術就常常被應用在不同的領域,像是建立醫學資料庫、各種不同的語料庫等等,隨著科技的進步,現今資訊技術在各個領域的應用更為廣泛,其中數位人文便是一個很好的例子。利用發展成熟的資訊技術例如資料探勘、資訊檢索、社會網絡分析等等,將其應用在社會科學人文的研究上,除了可以建立一套有系統架構的史料文本資料庫方便檢索外,另一方面也可以提供人文學者不同角度的思考方向,避免人文研究上最常遇到過於主觀的問題。
本研究以二二八的史料文本為例,研究目的在於提出意義含量較高之詞彙產生方法,回歸以語意單元(詞性標記)為基礎,建立出較能符合實際語境的詞彙整併方法,將已被分解成為單元的詞彙經由自然語言的規則性,再次整併為一意義較完整且較為精確的整併詞彙,並透過共通性指標與獨特性指標的計算,探討各個報刊討論議題之共通性與獨特性。

關鍵字:數位人文、機器斷詞、漢語語言學、文本分析
參考文獻 [1] 邱子恆,淺論文獻學與資訊科學 ,國立臺灣大學,2001。
[2] 王汎森,數位人文學之可能性及限制— 一個歷史學者的觀察,收於項潔(主編),數位人文研究與技藝,國立台灣大學,2014。
[3] 項潔、陳麗華,數位人文—學科對話與融合的新領域,數位人文研究與技藝,國立台灣大學,2014。
[4] 項潔、涂豐恩,導論—什麼是數位人文,從保存到創造:開啟數位人文研究,國立臺灣大學,2011。
[5] 金觀濤、劉青峰 ,中國近現代思想及文學史專業數據庫(1830-1930),國立政治大學與香港中文大學,2011。
[6] 鄭文惠,從人文到數位人文:知識微縮革命與人文研究範式的轉向,2014。
[7] 項潔、翁稷安,導論—關於數位人文的思考:理論與方法,數位人文研究的新視野:基礎與想像,國立臺灣大學,2011。
[8] Matthew G. K., What is Digital Humanities and What’s It Doing in English Departments?, Debates in the Digital Humanities, University Of Minnesota Press , January 9, 2012。
[9] 杜協昌,利用文本採礦探討《紅樓夢》的後40回作者爭議,數位人文研究與技藝,國立台灣大學,2014。
[10] 劉吉軒、柯雲娥、張惠真、譚修雯、黃瑞期、甯格致,以文本分析呈現臺灣海外史料政治思想輪廓,《 數位人文要義:尋找類型與軌跡 》(臺北:國立臺灣大學出版中心,2012)。
[11] 項潔、翁稷安,〈多重脈絡--數位檔案之問題與挑戰〉,收於項潔編,劉昭麟等著,《 數位人文要義:尋找類型與軌跡 》(臺北:國立臺灣大學出版中心,2012)。
[12] 周亞民 ,明治時期異體字研究知識庫的建立與其運用,國立臺北大學,2011。
[13] Corman et. al., Studying Complex Discursive Systems, Human Communication Research, 28(2), pp.157–206, 2002。
[14] Marco, Maria Jose Luzon, Procedural Vocabulary: Lexical Signalling of Conceptual Relations in Discourse, Applied Linguistics, 20(1) pp1-21, 1999。
[15] 詹衛東,漢語述結式的組配約束及“v+a+n”歧義格式分析,Language & Linguistics, Vol.4 No.3: Special Issue On CLSW,台北,pp.649-668,2003。
[16] 邱智銘,駱季青,陳克健,現代漢語複合動詞之詞首詞尾研究,中央研究院資訊科學研究所詞庫小組,2004。
[17] 謝承恩、洪振洲、馬德偉 ,結合漢典古籍虛詞常見字與統計量化分析進行漢譯佛典譯者風格辨別 ,法鼓佛教學院,第三屆數位典藏與數位人文國際研討會,2011。
[18] 唐昱,現代漢語名動式偏正結構研究,華中科技大學(學報),pp.1-23,2006。
[19] 萬菁、姬東鴻、任函、馮文賀,漢語複合名詞短語特徵結構的標注研究,Proceedings of 12th Chinese Lexical Semantics Workshop, pp.332-339, 2011.
[20] 趙紅改、呂學強、肖詩斌,搜索引擎日誌中“N+ V”型短語分析, 計算機應用與軟件,29(11), 2012.
[21] 劉雲、李晉霞,“V_雙N_1的N_2”格式轉化為粘合式偏正結構的制約因素,世界漢語教學,(02) 21-27,2002。
[22] 詹衛東,復合事件的語義結構與現代漢語述結式的成立條件分析,《對外漢語研究》,第一期,2010。
[23] 王紅俠,組合式偏正短語的語義分析,常州工學院學報(社會科學版) [1673-0887],24(2),pp.69,2006。
[24] 甯格致、劉吉軒、薛化元、蔡銘峰,關聯式文本探勘資訊探索實驗平台設計 –以 ”二二八事件臺灣本地新聞史料彙編”為例,第五屆數位典藏與數位人文國際研討會,中央研究院,2014。
[25] 王昱鈞、蔡宗翰,歷史佛典文獻外來語借詞對辨識系統,數位人文研究的新視野:基礎與想像,臺北市:國立台灣大學,2011。
[26] 侯坤宏,重探「二二八事件處理委員會」的角色, 《臺灣史研究》第21卷第4期,pp.1-56,2014
[27] 張炎憲,《二二八事件責任歸屬研究報告》,財團法人二二八事件紀念基金會, 2006
[28] 林元輝,《二二八事件臺灣本地新聞史料彙編》, 二二八基金會, 2009
[29] 陳怡君、黃淑齡、施悅音、陳克健,繁體字知網架構下之功能詞表達初探, 台北:中央研究院資訊科學研究所, 2005
[30] 詞庫小組,《中文詞類分析》,台北:中央研究院資訊科學研究所, 1993
[31] 陳言熙,運用文字探勘技術協助建構公司治理本體知識, 2006
[32] 黃居仁、張化瑞、俞士汶,基本詞彙的預測與驗證:由分佈均勻度激發的研究構想,《永遠的POLA:王士元先生七秩壽慶論文集》,p57-69,2005
[33] 董振東、董強,知網,取自http://www.keenage.com , 1999
[34] 劉群、李素建,基於知網的詞彙語義相似度計算,第三屆漢語詞彙語義學研討會,台北,2001
[35] 陳世偉, 植基於功能詞及知網架構之軟體搜尋系統,淡江大學,2004
描述 碩士
國立政治大學
資訊科學學系
101753032
資料來源 http://thesis.lib.nccu.edu.tw/record/#G1017530321
資料類型 thesis
dc.contributor.advisor 劉吉軒zh_TW
dc.contributor.advisor Liu, Jyi Shaneen_US
dc.contributor.author (Authors) 呂育如zh_TW
dc.contributor.author (Authors) Lu, Yu Juen_US
dc.creator (作者) 呂育如zh_TW
dc.creator (作者) Lu, Yu Juen_US
dc.date (日期) 2016en_US
dc.date.accessioned 22-Aug-2016 11:07:37 (UTC+8)-
dc.date.available 22-Aug-2016 11:07:37 (UTC+8)-
dc.date.issued (上傳時間) 22-Aug-2016 11:07:37 (UTC+8)-
dc.identifier (Other Identifiers) G1017530321en_US
dc.identifier.uri (URI) http://nccur.lib.nccu.edu.tw/handle/140.119/100502-
dc.description (描述) 碩士zh_TW
dc.description (描述) 國立政治大學zh_TW
dc.description (描述) 資訊科學學系zh_TW
dc.description (描述) 101753032zh_TW
dc.description.abstract (摘要) 摘要
從早期資訊技術就常常被應用在不同的領域,像是建立醫學資料庫、各種不同的語料庫等等,隨著科技的進步,現今資訊技術在各個領域的應用更為廣泛,其中數位人文便是一個很好的例子。利用發展成熟的資訊技術例如資料探勘、資訊檢索、社會網絡分析等等,將其應用在社會科學人文的研究上,除了可以建立一套有系統架構的史料文本資料庫方便檢索外,另一方面也可以提供人文學者不同角度的思考方向,避免人文研究上最常遇到過於主觀的問題。
本研究以二二八的史料文本為例,研究目的在於提出意義含量較高之詞彙產生方法,回歸以語意單元(詞性標記)為基礎,建立出較能符合實際語境的詞彙整併方法,將已被分解成為單元的詞彙經由自然語言的規則性,再次整併為一意義較完整且較為精確的整併詞彙,並透過共通性指標與獨特性指標的計算,探討各個報刊討論議題之共通性與獨特性。

關鍵字:數位人文、機器斷詞、漢語語言學、文本分析
zh_TW
dc.description.tableofcontents 第一章 緒論 1
1.1研究背景 1
1.2研究動機與目的 2
1.3研究資料 2
1.4論文架構 4
1.5研究成果與貢獻 5
第二章 文獻探討 6
2.1數位人文的發展背景 6
2.3漢語字詞詞性共列 9
2.3小結 12
第三章 詞彙整併方法 13
3.1文本資料校正 14
3.2中文斷詞 15
3.3詞彙整併方法 16
3.4共通性指標計算 21
3.5獨特性指標計算 22
第四章 實驗結果與結果分析 25
4.1 實驗資料 25
4.2詞頻統計之結果分析 28
4.2.1二二八事件爆發階段(1947.02.28-03.10) 28
4.2.2綏靖階段(1947.03.11-03.21) 44
4.2.3清鄉階段(1947.03.22-05.15) 48
4.2.4小結 53
4.3共通性指標結果探討 54
4.3.1二二八事件爆發階段(1947.02.28-03.10) 55
4.3.2綏靖階段(1947.03.11-03.21) 58
4.3.3清鄉階段(1947.03.22-05.15) 60
4.4詞彙獨特性指標結果探討 62
4.4.1二二八事件爆發階段(1947.02.28-03.10) 62
4.4.2綏靖階段(1947.03.11-03.21) 68
4.4.3清鄉階段(1947.03.22-05.15) 71
4.5小結 74
4.6問卷案例評估 75
4.7專家訪談評估 78
第五章 結論與未來展望 80
5.1研究結論 80
5.2未來研究方向 81
REFERENCES 83
附錄 86
zh_TW
dc.format.extent 848684 bytes-
dc.format.mimetype application/pdf-
dc.source.uri (資料來源) http://thesis.lib.nccu.edu.tw/record/#G1017530321en_US
dc.subject (關鍵詞) 數位人文zh_TW
dc.subject (關鍵詞) 文本分析zh_TW
dc.subject (關鍵詞) 機器斷詞zh_TW
dc.subject (關鍵詞) 漢語語言學zh_TW
dc.subject (關鍵詞) digital humanitiesen_US
dc.subject (關鍵詞) Chinese Linguisticsen_US
dc.subject (關鍵詞) textual analysisen_US
dc.title (題名) 以詞性共列關係分析文本中動詞語境-以二二八史料文本為例zh_TW
dc.title (題名) Applying Part of Speech Collocation for Verb Context Profiling – A Case Study with The Taiwan 228-Event News Archiveen_US
dc.type (資料類型) thesisen_US
dc.relation.reference (參考文獻) [1] 邱子恆,淺論文獻學與資訊科學 ,國立臺灣大學,2001。
[2] 王汎森,數位人文學之可能性及限制— 一個歷史學者的觀察,收於項潔(主編),數位人文研究與技藝,國立台灣大學,2014。
[3] 項潔、陳麗華,數位人文—學科對話與融合的新領域,數位人文研究與技藝,國立台灣大學,2014。
[4] 項潔、涂豐恩,導論—什麼是數位人文,從保存到創造:開啟數位人文研究,國立臺灣大學,2011。
[5] 金觀濤、劉青峰 ,中國近現代思想及文學史專業數據庫(1830-1930),國立政治大學與香港中文大學,2011。
[6] 鄭文惠,從人文到數位人文:知識微縮革命與人文研究範式的轉向,2014。
[7] 項潔、翁稷安,導論—關於數位人文的思考:理論與方法,數位人文研究的新視野:基礎與想像,國立臺灣大學,2011。
[8] Matthew G. K., What is Digital Humanities and What’s It Doing in English Departments?, Debates in the Digital Humanities, University Of Minnesota Press , January 9, 2012。
[9] 杜協昌,利用文本採礦探討《紅樓夢》的後40回作者爭議,數位人文研究與技藝,國立台灣大學,2014。
[10] 劉吉軒、柯雲娥、張惠真、譚修雯、黃瑞期、甯格致,以文本分析呈現臺灣海外史料政治思想輪廓,《 數位人文要義:尋找類型與軌跡 》(臺北:國立臺灣大學出版中心,2012)。
[11] 項潔、翁稷安,〈多重脈絡--數位檔案之問題與挑戰〉,收於項潔編,劉昭麟等著,《 數位人文要義:尋找類型與軌跡 》(臺北:國立臺灣大學出版中心,2012)。
[12] 周亞民 ,明治時期異體字研究知識庫的建立與其運用,國立臺北大學,2011。
[13] Corman et. al., Studying Complex Discursive Systems, Human Communication Research, 28(2), pp.157–206, 2002。
[14] Marco, Maria Jose Luzon, Procedural Vocabulary: Lexical Signalling of Conceptual Relations in Discourse, Applied Linguistics, 20(1) pp1-21, 1999。
[15] 詹衛東,漢語述結式的組配約束及“v+a+n”歧義格式分析,Language & Linguistics, Vol.4 No.3: Special Issue On CLSW,台北,pp.649-668,2003。
[16] 邱智銘,駱季青,陳克健,現代漢語複合動詞之詞首詞尾研究,中央研究院資訊科學研究所詞庫小組,2004。
[17] 謝承恩、洪振洲、馬德偉 ,結合漢典古籍虛詞常見字與統計量化分析進行漢譯佛典譯者風格辨別 ,法鼓佛教學院,第三屆數位典藏與數位人文國際研討會,2011。
[18] 唐昱,現代漢語名動式偏正結構研究,華中科技大學(學報),pp.1-23,2006。
[19] 萬菁、姬東鴻、任函、馮文賀,漢語複合名詞短語特徵結構的標注研究,Proceedings of 12th Chinese Lexical Semantics Workshop, pp.332-339, 2011.
[20] 趙紅改、呂學強、肖詩斌,搜索引擎日誌中“N+ V”型短語分析, 計算機應用與軟件,29(11), 2012.
[21] 劉雲、李晉霞,“V_雙N_1的N_2”格式轉化為粘合式偏正結構的制約因素,世界漢語教學,(02) 21-27,2002。
[22] 詹衛東,復合事件的語義結構與現代漢語述結式的成立條件分析,《對外漢語研究》,第一期,2010。
[23] 王紅俠,組合式偏正短語的語義分析,常州工學院學報(社會科學版) [1673-0887],24(2),pp.69,2006。
[24] 甯格致、劉吉軒、薛化元、蔡銘峰,關聯式文本探勘資訊探索實驗平台設計 –以 ”二二八事件臺灣本地新聞史料彙編”為例,第五屆數位典藏與數位人文國際研討會,中央研究院,2014。
[25] 王昱鈞、蔡宗翰,歷史佛典文獻外來語借詞對辨識系統,數位人文研究的新視野:基礎與想像,臺北市:國立台灣大學,2011。
[26] 侯坤宏,重探「二二八事件處理委員會」的角色, 《臺灣史研究》第21卷第4期,pp.1-56,2014
[27] 張炎憲,《二二八事件責任歸屬研究報告》,財團法人二二八事件紀念基金會, 2006
[28] 林元輝,《二二八事件臺灣本地新聞史料彙編》, 二二八基金會, 2009
[29] 陳怡君、黃淑齡、施悅音、陳克健,繁體字知網架構下之功能詞表達初探, 台北:中央研究院資訊科學研究所, 2005
[30] 詞庫小組,《中文詞類分析》,台北:中央研究院資訊科學研究所, 1993
[31] 陳言熙,運用文字探勘技術協助建構公司治理本體知識, 2006
[32] 黃居仁、張化瑞、俞士汶,基本詞彙的預測與驗證:由分佈均勻度激發的研究構想,《永遠的POLA:王士元先生七秩壽慶論文集》,p57-69,2005
[33] 董振東、董強,知網,取自http://www.keenage.com , 1999
[34] 劉群、李素建,基於知網的詞彙語義相似度計算,第三屆漢語詞彙語義學研討會,台北,2001
[35] 陳世偉, 植基於功能詞及知網架構之軟體搜尋系統,淡江大學,2004
zh_TW